4G已经商用5年，但高清语音VoLTE(Voice over LTE,基于4G网络的语音业务)仍然没有普及。

图1 VoLTE与5G

如果你的手机上显示"HD"或者"VoLTE"，那么表示你已经在享受高清语音服务了。

图2 高清语音的标志

同样的，5G网络也有高清语音，叫做VoNR。

5G网络部署初期，语音通话"借道"4G，回落到4G，通过VoLTE甚至2/3G(CSFB)实现。但随着5G网络的普及以及发展，VoNR将逐步成为主流语音方案。具体演进过程有3条路径。

图3 VoNR演进路线

体验过VoLTE的同学都知道，相较于非高清HD语音，高清语音更加清晰与细腻。

GSM语音编码FR(全速率编码)处理的语音带宽是200~3400Hz，VoLTE的语音编码AMR-WB(自适应多速率编码)是50~7000Hz。可见VoLte的处理带宽更宽，这样意味着VoLte可以采集编码到更多低频和高频声音，还原后的声音比GSM更丰富。

VoLTE的取样率达到16kHz，位元速率可以支援到23.85kps。实测VoLTE电话如图4所示：

图4 VoLTE分析测试

高清语音实现的离不开采样率的提升，这也是本文的主题。

文 | 通讯M班长，阅读时间预计2分钟

导读

取样是模拟讯号和数字讯号之间的桥梁。面对一个模拟讯号，我们如何合理地去将其变成离散的讯号，并将其交给数位电路或者计算机去处理。

1928年，贝尔实验室的科学家哈里·尼奎斯特(Harry Nyquist)在他的论文"电报传输理论的一定论题"中首次提到了这个问题与答案。1949年，数学工程师克劳德·夏农(Claude Shannon)在他的文章中证明了这一点。

图5 奈奎斯特

"模拟"讯号来源于来大自然，模拟一词是指它与大自然本真的讯号"相似"。

一个"真实世界"的模拟声音讯号可以用麦克风捕捉到，如图6所示，声波被麦克风捕捉后转换为电讯号。

图6 模拟讯号的产生

麦克风中有一个薄膜(membrane)，当声音传来时，声波带动薄膜振动，根据声波压力的变换，隔膜被前后推动。

图7 麦克风的工作原理

膜片的位移被转换成一个时变的电压——一种模拟电讯号。当薄膜振动时，带动线圈振动，线圈和永磁铁的相对位置改变，这使得穿过线圈的磁场发生变化，磁场变化了会线上圈中产生感应电动势，也就产生了电流。特定的声音有特定的振动，特定的振动产生特定形式的电流。所以话筒就把声音"编码"成了电流的形式。

为什么要取样？

模拟讯号是时间上连续的讯号。

连续时间讯号在任意时刻t都有瞬时的值，所以在计算机中不能储存或处理这样的连续讯号。

因此，模拟讯号必须被数字化(离散化)以产生用于计算机使用的数字集合。

图8 模拟到数字，数字再到模拟转换

离散时间讯号具有有限(可数的)序列，每个序列都有限的可能值。

图9 取样的过程

以规则的时间间隔取连续讯号的各个值的过程称为取样，如图9所示。

模拟(连续)讯号被数字化(离散化)的过程称为模拟-数字转换，使用称为模数转换器(ADC)的硬件完成。

图10 输入是模拟讯号，输出是数字讯号

为了正确地表示模拟讯号，ADC必须完成两项任务：

抽样：在一定的时间间隔内取值，使连续时间变数t数字化；量化：使用有限的计算机位给样本分配一个值，数字化瞬时振幅x(t)；样本之间的时间间隔(以秒为单位)称为取样周期Ts，取样周期与取样率成反比fs=1/Ts。

图11 对模拟讯号取样，用序列索引

以连续时间正弦讯号x(t)＝Asin(Ωt+Φ)举例，Ω称之为连续的时间频率。

当我们对其离散化，可以这样表示x(n)＝Asin(ΩnTs+Φ)，由整数n索引的数字序列。

我们令ω=ΩTs=Ω/fs，ω为离散时间频率，它是Ω关于fs的归一化频率。

图12 正弦讯号的取样过程

需要多久取样一次原始的模拟讯号？

假设我们得到一个模拟讯号为图13(A)。现在我们用几种不同的取样率对原始讯号(A)进行取样，如(B)(C)(D)。问题是"哪一个(BCD)最能代表原始讯号(A)？"。

换句话说，如果我们将取样讯号(BCD)转换回模拟讯号(EFG)，那么EFG中哪一个与原始讯号(A)最接近(最相似)？

答案将是简单和直观的。

你很容易就会选择(C)作为最好的答案。是的，这是对的。最好的答案是(C)。

但是要对讯号进行高速取样，需要高速的ADC和大容量的储存能力！

图13 不同的取样速率

那么，一定存在一个最小的取样率，按照这个取样率，我们再接收端恢复原始讯号时，不会丢失关键资讯。

抽样理论就是在这里开始的。

满足要求的最小取样率称为"奈奎斯特抽样率"。

抽样理论的定义：

在进行模拟/数字讯号的转换过程中，当取样频率fs.max大于讯号中最高频率fmax的2倍时(fs.max>2fmax)，取样之后的数字讯号完整地保留了原始讯号中的资讯，一般实际应用中保证取样频率为讯号最高频率的2.56～4倍；取样定理又称奈奎斯特定理。

在图14(A)情况下，原始讯号只有一个频率分量。因此，任何取样率等于或大于fm的两倍(2xfm)，都将保留原始讯号中包含的所有关键资讯。

在(B)情况下，原始讯号由从0到fh的多个频率分量组成。因此，任何取样率等于或大于fh的两倍(2xfh)，都将保留原始讯号中包含的所有关键资讯。

在(C)情况下，原始讯号由多个频率分量组成，但起始频率不是0，而是从fl频率开始到fh。我们把fh和fl之间的频带称为讯号的带宽，fw。因此，任何取样率等于或大于fw的两倍(2×fw)，都将保留原始讯号中包含的所有关键资讯。

图14 奈奎斯特频率

为什么是2倍呢？

取样定理的证明

将讯号进行傅立叶变换，在频域内作相关分析，很容易得出奈奎斯特的结论。

图15 冲激抽样讯号的频谱

现在我们有一个讯号f(t)，对其求傅立叶变换得到F(ω)，频率范围为-ωm~+ωm；

通过冲激抽样函式δt(t)对讯号f(t)进行抽样，得到抽样函式fs(t)=f(t)δt(t)

时域的乘积，对应频域的卷积

这里用到了一般周期讯号的傅立叶变换公式

其中T1是讯号的周期。

Fs(ω)的表示式告诉我们，取样讯号的频谱就是原始讯号频谱的周期延拓，延拓的周期为ωs(或者fs)。如果ωs大于2倍的ωm，显然如图15(b)所示，互相之间不影响；如果ωs小于2倍的ωm，显然如图15(c)所示，互相之间影响"混叠"。

此时，再通过傅立叶反变换求取讯号f(t)的时候，必然造成失真。

这就是前面所说的奈奎斯特定理。

观察图16，原始讯号的频谱不在零频附近，而是在取样频率整数倍处，类似于图14(c)。这不影响取样定理的执行，取样讯号的频谱依然是周期延拓。

图16 非零频对称的原始频谱周期延拓

同样的，原始讯号可能是多个，其对应的频谱也会是多个。图17中，原始讯号的频谱为图中带"斜线"的方块，从左到右依次为"深蓝蓝色紫色红色青色黄色"，这些频谱只要它的周期延拓不产生混叠，那么依然可以无失真的恢复关键资讯。

图17 多个频谱的周期延拓

总结

如果想要获得好的通话体验，必须要尽可能多"取样"声音讯号(当然还与编码方式有关)。GSM的取样率是8kHz，VoLTE达到16kHz。人说话的声音为300~3400Hz，按照奈奎斯特的取样定理，至少采样率为6.8kHz。

所以GSM网络采用的取样率为8kHz满足基本要求。

像CD的取样率达到44.1kHz。用44.1KHZ的取样频率进行取样，则可还原最高为22.05KHZ的频率-----这个值略高于人耳的听觉极限(20Hz~20000Hz)。这是CD为什么音质清晰的原因！

通讯领域内受限于装置的处理能力和容量，并不能一味地追求高取样率与编码算法。

HD高清语音是相对传统的语音编码而言的，技术指标上要求取样频率高于传统的语音，量化方法和编码速率同样有更高的要求。从感知上说，传统语音局限于人声的表达，高清语音除人声之外还能表达更多的环境上的声响。

References

[1]Eric Jacobsen, "Frequency-Domain Periodicity and the Discrete Fourier Transform", dsprelated.com, August, 2012.

[2]Sharetechnote,"Communication - Sampling Theory ".

[3]郑君里,应启珩,杨为理."讯号与系统(第三版)",2010.

看到这里为班长点赞吧，欢迎在评论区留言讨论。

5G高清语音VoNR与VoLTE。为什么通话声音会越来越清晰？

导读

为什么要取样？

需要多久取样一次原始的模拟讯号？

取样定理的证明

总结

品牌选车