PCM音频的舍入问题



        今时今日,数字音频在消费音频市场占据主要份额,数字音频已经渗透人们的日常生活,大部分音响发烧友也主要通过数字音频欣赏音乐。这是否意味着它是完善的技术?在我看来,不是。
        据说在CD推广的初期,很多人说了违心的话而吹捧CD,无论是主观的评价还是所谓客观的参数,CD看起来太棒了,于是它成为了继LP后的新一代普及音源。数字音乐让人们享受到了便利,但这并不代表能忽视它的缺点。
        我们都知道44.1KHz是一个主流的数字音频采样率。它看起来很值得信赖,因为按照采样定理,它能对至高22.05KHz的超高频进行采样。另一方面,经过前人传统的测量,优秀的人耳听阈在大约19KHz开始急剧上升,且音乐文件中的极高频信息通常很微弱,所以若不考虑模拟低通滤波器的设计问题,44.1KHz被认为是宽裕的。一般不被提到的是,44.1KHz准确记录22.05KHz信息的前提是不考虑相位问题。如果采样和纯音的发出同时开始,这是没问题的,如果这个22.05KHz纯音有间断,那它开始或停止于x/44100(x∈Z),即x*180°于0点的相移,这也没有问题。问题是,现实情况往往不理想,相移不是整数倍半周期的长度时,信息的记录会不准确,如果它是纯音,它往往带来额外的频率分量,这是不准确的体现。换句话说,44.1KHz的意义是“记录22.05KHz时,它的相位精度是180°一级”。同样的道理,记录2.205KHz的相位精度是18°一级。
        中学的数学老师可能会告诉您,乐器调律要使乐器的频率准确击中一些比例关系,但这是简化的。事实上乐器的泛音总会因乐器的非理想性而存在偏移,例如钢琴,如果要让键(音)的音色都比较细致、优美,一种基本的方法是:不单纯校准基音,而是有意识地增加偏移,从而让泛音在总体上比较准确。这样,即便基音不太准确,总体而言听起来会较好。于是,键盘的两端可能会有约1/3半音的差。另一方面,正是乐器弦不理想但温和的特性,作为一种现实的要素而提供了现实感。一个众所周知的经验是,早期合成器的钢琴音色经常不像真,过于单调,除了编辑的裕度、广度限制,还可能是由于人为编辑的谐波模式过于简化导致的。调律师与演奏家关注的相移远远超过44.1KHz采样率提供的相位精度,这就是数字化特有的,“强制舍入时间轴”导致的相位失真。
        如果是高采样率,例如192KHz,理论上的确能使上述相位精度级更小,但回放相对常见的192KHz 24bit的PCM音源需要(1/192K)*(2^-24)/2≈1.5ps的最大抖动保证信号的精度。大部分常见产品无法满足所需精度,但依然宣称“支持高采样率格式音频”;即使目前市场上已经存在号称“飞秒级抖动”的音频时钟或参考时钟,但数字转换器、数字处理器或锁相环芯片等现成的集成电路自身或能导致皮秒级的抖动。因此,高码率音频的播放至今不易。
        现代音乐制作者似乎也不太关心当前技术的隐患,而是倾向于似流水线地完成工作。事实上,常见的FIR、IR数字滤波器因移位与叠加步骤,其精度包括延时的同一性也受到频率的影响。延时滥用或导致上文提到的“强制舍入时间轴”导致的相位失真进一步增加,其特性亦进一步复杂化。
        问题不仅体现于时间轴。举个例子,单一音调的响度通常会越来越轻。如果增加线性的衰减,原本响度极轻的部分就可能归零,客观上减少了信号;如果增加线性的增益,原本响度最轻的部分也会被拔高,但稍后不会继续变轻而是一刀切(不考虑系统的非理想性导致的额外衰减)的截止,客观上损失了信号的规律。大部分均衡器是比例的,看似没有这些问题,但增益或衰减意味着给定频率信号分量重新舍入位深,因此响度变化特性极易受损。这不仅出现在制作端,对于回放端希望用数字均衡器调整声音的人也很重要。
        均衡器的主要用途有衰减瑕疵频率以及搁架式抬升有价值或整体不足的频率。一个广泛的经验是,现代成品人声作品听起来往往格外地清晰,不像现实发出的声音。这是工具性和艺术性的权衡。为了消除瑕疵频率的影响,制作者经常会将较狭窄的部分频段大量地衰减,这也导致了原始声音结构的扭曲。毕竟,很多人的需求是清楚易听的语音,而非自然的拟真感。在模拟时代,或因具备温和特性的低阶滤波器很难对窄频带进行较大的编辑而不影响其它频段,因而谨慎使用这种方法。相对地,为了遮住瑕疵,早期可能倾向于使用混响效果器等方法,当然,人声不如现代那么清晰。
        中国普通话不仅有大量同音字,还具备四个音调与轻声,它们易于和音乐中的音调存在一些冲突。在我幼年时期,不看歌词本但辨识周杰伦的部分歌词是非常困难的,除非很熟悉它。因此,需要听者将更多注意力投入于对歌词的辨识与联想。这么看来,“使人声过分清晰”的风潮还和文化有一定关系。当然,和录音环境造成的瑕疵也具备相关性。
        结合于《论科学HIFI第二部——研究与感知的问题》的猜想,可以说无论是演奏者还是欣赏者,都很讲究相位问题。从这个角度来说,数字音频的录制、处理和回放才是“木桶理论”中真正的短板。可是,时至今日的消费者或投资人似乎已经接受了厂商灌输的灰色理论,却很少人意识到其中的问题,就像四十年前的态势一样,只是随着行业的发展,更多的人接受了看似既定的事实罢了。

更新履历:
24.06.17凌晨 写毕,第一回发布