数据建模分析 工具:采样和滤波

来源:百度文库 编辑:中财网 时间:2024/05/11 19:55:06
数字计算机的普及促进了语音学的研究, 使人们能够快速, 大量, 低成本地记录, 保存, 交换和分析声音信号. 然而, 由于数字计算机的核心是用离散的数字量来表达和记录所有信息的, 它从本质上不能被用来描述人类已有的全部数学概念和方法, 当然也就不能完全精确地表达所有的物理概念和物理测度. 单就声音信号来说, 物理上我们所希望测量的可能是声压随时间的变化, 它在数学上对应着某个关于时间的连续函数. 数字计算机不能直接表达这种连续信号, 而只能表达离散的时间序列(即离散信号). 它甚至不能表达所有的离散信号, 而只能表达在取值上也是离散的离散信号(即数字信号).  所以我们用计算机来处理任何一种物理信号时所面临的首要问题就是连续信号的数字化问题(或称"模/数转换"问题). 一般人们把连续信号到离散信号的过程叫采样, 把测量值本身的离散化过程叫量化. 这里我想讲清楚的是采样问题.

使用计算机前我们必须明确采样过程对原始的连续信号所造成的影响, 然后才能有信心地做后续的各种处理和分析工作. 著名的采样定理(Nyquist-Shannon sampling theorem)就是帮助我们建立这种信心的一个重要的指导性定理. 但是很遗憾, 人们容易对它有一些经常性的误解. 现在我试试能不能尽量少用数学语言地把它说清楚.


定理涉及了几个概念, 包括"采样”,“采样频率",“带宽"和"完全重构". 首先, "采样”在这里指的是理想采样, 即直接记录信号在某时间点的精确取值. 所以说, 采样定理只涉及到了从连续信号到离散信号的理想采样过程, 而未涉及到对测量值的量化过程. 其次, “采样频率"指单位时间内的采样点数, 它还暗示了这里讨论的采样是一种周期性的操作, 非周期性采样不在它讨论的范围之内. 第三,“带宽"是一个信号的一种频域参数. 这里不得不提到"傅立叶分析"这种数学方法. 极简略地说, 满足某种数学条件的一个随时间变化的信号(现实中的物理信号大多满足该条件), 或称时域信号, 可以被变换成一个随频率变化的信号(或称频域信号), 这对时域信号和频域信号之间的关系是通过由傅立叶提出的变换和反变换计算方法确定的. 时域信号和频域信号其实是对同一物理测度从不同角度各自完备的表述. 当通常的时域信号被变换到频域内时, 它取值不为零的部分所跨越的频率范围就是这个信号的带宽. 定理中关于带宽的表述有时会被误用成"信号最高频率的两倍", 因为对于具有低通性质的信号来说, 其通带最高截止频率和带宽是一至的. 还好, 这个误解对语音处理的影响不是很大. 第四, 所谓"完全重构"指的是给定了前面条件下得到的精确采样值, 数学上可以精确地计算出原来连续信号中任何一个时间点的信号值. 其实, 从定理的数学证明中可以顺带推出用来"完全重构"原始信号的数学公式(即Nyquist-Shannon差值公式). 值得注意的是, 这个公式在数字计算机上是不可能精确实现的, 至少因为其中所使用的一族函数在时域内是无限长的.

采样定理从1928年被Nyquist提出到1949年被Shannon正式地证明, 这中间跟计算机没有什么直接关系. 但是因为数字计算机只能处理离散的数字信号, 连续信号必须经过采样和量化才能被计算机处理, 所以采样定理对计算机化的信号处理技术具有基础性的指导意义. 

现在我们来着重讨论采样定理中"两倍"的含义, 因为我觉得人们最容易从它的字面上引申而产生误解. 一种普遍的误解是这样表述的: “如果用采样频率Fs对一个信号采样, 信号中Fs/2以上的信息会消失". 这种误解不仅是错误的, 而且是危险的. 采样定理的证明过程显示, 当用采样频率Fs对一个信号采样时, 信号中Fs/2以上的频率成分不是消失了, 而是对称地映象到了Fs/2以下的频带中, 并且和Fs/2以下的原有频率成分迭加起来. 这个现象叫做"混叠"(aliasing), 是任何一个连续信号被离散化的必然结果(数学上通过傅立叶分析可以证明). 我们可以用下面图示的例子来说明这个现象.
 

上半图中的蓝色信号是 x(t)=cos(2*pi*t) 的一部分, 它在频域内只在 F=1Hz 处有一条谱线. 当我们用 Fs=4Hz 对它采样时, 可以得到的采样点如上半图中的红圈所示. 因为我们的信号和采样频率满足采样定理的条件, 所有我们可以从这些点重构信号x(t). 下半图中的蓝色信号是 y(t)=cos(2*pi*t)+cos(6*pi*t) 的一部分, 它在频域内有 F=1, 3Hz 两条谱线. 当我们还用 Fs=4Hz 对它采样时, 可以得到的采样点如下半图中的红圈所示. 注意, 下半图中采样点的取值刚好分别是上半图中对应采样点取值的2倍. 如果用下半图中的采样点来重构信号, 得到的将是 2*cos(2*pi*t) , 如绿色点划线所示, 而非原信号y(t). 看上去原来 F=3Hz 的频率成分好象是消失了, 其实这个频率成分沿着 Fs/2=2Hz 对称地映象到了 F=1Hz 后与原有的频率成分迭加到了一起. 这种对于低于Fs/2频率成分的破坏是无法恢复的. 所以说, 采样定理的一个重要指导意义是给出了防混叠的最低条件. 混叠本身是采样的必然效应, 只不过如果混叠到原信号带宽范围内的频率成分为零的话, 信号不会被破坏, 也就能"完全重构"了.
前面提到的误解可能导致的危险后果是对所要观测的频带范围内引入混叠畸变. 计算机的电子器件(如显示器)中有很多高频噪音信号, 它们不会因为高于Fs/2而消失, 反而会因采样而混入低频带. 语音信号本身虽然整体上是低通特性(约-6dB每倍频程), 但它的高频段不会是绝对的零. 这就是为什么在现实的采样技术中一定要有反混叠滤波步骤的原因. 这里的逻辑关系是: 采样必然导致混叠 --> 满足采样定理条件下的混叠不会破坏信号(可重构) --> 反混叠滤波是把被研究信号预先处理成满足采样定理条件的信号. 当然现实中的反混叠滤波器也不可能是理想的. 滤波器越接近理想, 造价也就越高. 音响处理中有一种技术叫"过采样"(oversampling), 其实是用性能一般(较便宜)的滤波器对信号滤波后再用远远大于两倍通频带的采样频率来采样, 使造成混叠的频率成分远高于滤波器的截止频率, 因为那里的带阻性能相对会更好些. 这些扯到技术细节了, 不多说.  不过我们应该看到, 一般计算机声卡都不标出反混叠滤波器的指标, 因为声卡的设计往往侧重于放音; 而象CSL这种专业录音设备会给出详细的指标. 显然, 它们的价格差别不是没有道理的. 
关于采样定理和滤波就讨论这么多. 再讲一个有趣的现象, 可以用采样定理来解释. 当我们看电影时, 如果里面有螺旋桨飞机启动的镜头, 我们会看到螺旋桨片先是越转越快, 然后在某时会突然看起来变慢了, 甚至反转. 这是因为电影摄像机相当于以一个固定的频率对连续转动的螺旋桨片采样, 当桨片的转速超过Fs/2并继续提高时, 我们看到的就是混叠干扰下的结果. -- 这是题外话.