APP下载

从CD到声波 动听音乐从哪来?

消息来源:baojiabao.com 作者: 发布时间:2024-05-17

报价宝综合消息从CD到声波 动听音乐从哪来?

【CD篇】

光碟数字音频(Compact Disc DigitalAudio)CDDA或CD-DA是音频光碟的标准格式,光碟红皮书规定了调制系统(EFM),纠错设施(CIRC)和八个子码通道。第一版红皮书是1980年由索尼和飞利浦发布的,它由数字音频光碟委员会采用,由国际电工委员会100批准(InternationalElectrotechnical Commission Technical Committee 100)作为1987年的国际参考标准IEC60908发布,第二版在1999年发布,该标准并不是免费的,其必须从飞利浦和IEC获得。

专业的朋友们知道CD-DA中包含的音频格式为双通道,16bit,44100Hz采样的线性PCM格式。为什么会用到44.1kHz16bit这个格式。前者是来源于奈奎斯特采样定律,即如果想保留一个完整的频率信息,至少需要以该频率的2倍进行采样。通常人耳最高可以听到20kHz,所以采样频率必须高于40kHz,至于为什么CD中是44.1kHz以及视频标准中是48kHz就得去问索尼和飞利浦的工程师当年为什么不凑个整。而16bit的位宽则带来了96.33 dB的信噪比,有足够的分辨率保证音频信息足够清晰不被噪声淹没,当年的飞利浦一直采用14bit,索尼一直采用16bit,结果索尼打败了飞利浦,最终标准为16bit 44.1kHz。当然今天录音室的录音标准远超过16bit以及44.1kHz,不过压制出来的CD还是这样。早期的CD还会采用“预加重”的手段来增强音频当中的高频信息,以至于在解码的时候不会损失太多高频(早期的CD机模拟低通滤波器的性能有限,但今天通常采用数字滤波器取代大部分的模拟滤波器的工作)之后播放时可以选择是否去加重。当然今天的音频在录制中通常不会预加重。

今天的CD通常都可以播放超过80分钟的歌曲,数据通常以凹坑和平台的方式记录在光碟上,用来代表一系列0和1,通常凹坑代表0,凹坑的边缘代表1。音频数据流通常包含三个部分:引入轨道,主音频信息,引出轨道,而子码贯穿这三个部分。引入和引出轨道是静音的,引入轨道包含了光碟的目录,即包含了音轨的起始位置以及引出轨道的位置。轨道位置由时间代码确定,时间代码以分、秒、帧格式记录,其中1帧等于1/75秒,CD机读取目录里面的时间码,再对应子码里面的时间码找到歌曲的位置。这个目录就相当于硬盘上的分区表。每一帧又包含98个数据小帧,一个数据小帧包含33字节的数据信息,其中的24字节是音频信息(16bit*2channel*6samples= 192bits/8 = 24字节)其中的8字节为CIRC纠错数据,1字节为子码数据。所以98*75*6= 44100刚好每秒钟有44100个音乐样本,即44.1kHz。

与DVD和CD-ROM不同,音频CD当中没有“文件”这个东西,只有一连串的LPCM数据流以及贯穿的8个子码数据流,但是Windows可以把它的目录读取为CDA文件。翻录的过程中,提取软件读取其中的音频数据保存在常见的音频格式中,比如WAV、AIFF、FLAC、MP3等。有些出版商为了防止CD被翻录,在CD中混入DVD层(因为CD与DVD的光碟需要不同的激光读取)但飞利浦表示这样的光碟不符合标准,如果使用CDDA的商标会造成侵权。2005年索尼BMG音乐娱乐公司就秘密在电脑上安装XCP防复制软件,违反了CDDA的标准。下图为EsotericVRDS-NEO 光碟读取机械臂,应该称得上业界最精密的光驱械臂了。一般情况下光驱读取的数据都会保存在缓存当中,而缓存的速度要比马达反应快得多。这样的机械臂算得上工艺品了。一般情况下的速度:CD

音频文件格式是用于在计算机系统上存储数字音频数据的文件格式。这些音频信息通常是经过编码器对于音频信息进行一定规律的编码,通常需要保存的音频信息有声音的时间信息和声音的振幅信息(或叫做位深,位宽,比特信息)进行有损或者无损编码,常见的格式有mp3、ogg、aac、flac、wav、ape等,比较知名的无音频信息损失的(无损)编码格式有ape、flac、wav,其中wav格式是始于微软Windows系统上无压缩的格式,通常比较占用磁盘空间。有损压缩之后的音频文件通常会删除掉一些人耳很难听到的音频信息(特别高的频率或许只有狗能听到)取决于不同的有损编码系统,不同的编码器对于删除音频文件的哪一部分才会尽可能保留最大的音频信息以及采用什么样的音频解析算法有不同的措施。通常高码率的mp3格式会删除掉16kHz以上的频率。通过Audition等软件可以看到频谱图中16kHz以上被削去。如果一个人重新用无损格式去录制一个有损的音频信息那么就会很难发现其中的端倪,毕竟自然界中什么样的声音都会存在的。

通常一个CD格式的音频为双通道16bit,44.1kHz,这个16bit以及44.1kHz就好像坐标轴,描述著一个声音的波形。这其中16bit就是音频当中的振幅信息,也就是下图中纵坐标的部分,相当于声波信息的分辨率。44.1kHz是时域信息,也就是下图中横坐标的部分,相当于声波的信息量,44,100 samples/second即横坐标每秒钟有44100根棒棒糖,纵坐标有16bit也就是2^16= 65536层。音频文件就是用这些棒棒糖在什么时刻出现在什么振幅位置(哪一层)来表达音频信息。(实际的音频文件如下图,但纵坐标(-8~7)的区间内有65536层)。或者你可以认为振幅信息就是音量大小,反映在自然界就是喇叭上振膜的推拉幅度以及位置。

播放音乐文件的过程也是对于编码后的音频文件进行解码的过程,无论是通过电脑播放还是CD机播放,播放器都需要按照均匀的时间顺序将音频文件的振幅信息传递给DAC或叫Decoder(Digital to Analog Converter数字到模拟转换器)而DAC需要做的工作就是按照时间顺序把这些振幅信息转换为电压信息从而驱动喇叭。如果播放器不能把音频文件按照标准的时间顺序传递给DAC,专业领域称之为Jitter,即时间抖动,如果播放器在1秒内把所有音频文件传递给DAC,那么你将会听到爆音;如果一个3分钟的歌曲在小于3分钟的时间传递给DAC,那么你将会听到音频被加速,效果则会是这个声音频率变高,男声变女声等;如果是一个不起眼的微小的时钟误差传递给DAC,(HiFi发烧友眼中是容不下一粒沙的)在不同的解码系统中会造成不同的结果。通常的结果会是干扰数字滤波器,产生一些不耐听的不顺畅的齿音,造成声音的不连贯不耐听。如果你对于CD机或数字音源的读取以及时钟抖动感兴趣,不妨点阅读原文来看看这篇文章,这篇文章详细解读了CD机的结构,采用CD内部传输(一般为飞利浦I2S标准)或外部采用同轴(SPDIF索尼飞利浦数据界面)或光纤的传输方式对于解码系统在时钟同步上的影响。

标准的音频解码DAC定义振幅电压区间为2Vrms,这同样是一个比较早期的标准,如同44.1kHz这个标准一样早,(视频文件中附带的音频文件通常为48kHz)2Vrms换算成标准的电压区间为5.6Vpp,即一个理想的DAC需要在这5.6Vpp的电压区间内能够表达出65536种不同的电压信息,即2^16= 65536(也就是16bit的音频信息),那么这个解码芯片最精细需要至少可以表达出5.6Vpp/65536 =0.00008545v为一个单位区间的电压,鉴于成本以及工艺原因,目前市面上许多的音频芯片还不能达到这个标准,DAC的详细解释说明请关注之后的文章。

此外我个人建议在Windows播放歌曲的时候对扬声器进行这样设置:

声音——播放设备——扬声器——配置——立体声——下一步——勾选全音域扬声器下的左前方和右前方——下一步——完成

声音——播放设备——扬声器——属性——增强——勾选禁用所有声音效果——高级——默认格式选择24位,44100Hz——确定

这样设置基于两点原因,其一是Windows系统本身要对多条音轨进行混合叠加才能输出,默认格式选择24位播放既尽可能还原原始的振幅信息,毕竟如果在重采样阶段发生溢出,就会导致输出失真,这样一来音质自然会打折扣;其二设置在44100Hz尽量不给Windows过采样太多自由发挥的空间(如下图的情况就可能会导致音频信息的失真),同样是尽可能保留原始的音频信息。

图片引用自数码多网站

这节当中,我们可以简单了解一下CD当中音频是怎么存在的,后文当中,我们还会进一步对变成声音的过程进行讨论,感兴趣的朋友不妨收藏、点赞、转发一下、让更多感兴趣的朋友关注极客湾,如果有机会的话,我会请专业的录音师朋友帮大家解读《从麦克风到CD》,包含一些专业的录音学问,从麦克风的选择、保养、场景布置、常用的录音手段、录音仪器、以及录音师与发烧友在“音质”方面不同的理解。谢谢大家!




2018-08-02 00:31:00

相关文章