什么是音频数字化-技术文章-深圳市君辉电子有限公司手机版

什么是音频数字化

时间：2023-05-22 阅读：1389

普通的CD采用了数字技术，不过它只是简单地把模拟信号加以数字化。为了把模拟信号数字化，首先要对模拟信号进行采样。根据Nyquest采样定律，通常其采样频率至少是信号中的最高频率分量的两倍。对于高质量的音频信号，其频率范围是从20Hz-20kHz。所以其采样频率必须在40kHz以上。在CD中采用了44.1kHz的采样频率。在对模拟信号采样以后，还必须对其幅度上加以分层。在CD中，其分层以后的幅度信号用16比特的二进制信号来表示，也就是把模拟的音频信号在幅度上分为65,536层。这样，它的动态范围就可以达到96分贝=20Log65536(6分贝/比特)。这种直接模数(A/D)变换的方法也称为PCM编码。直接数字化的最大缺点是比特率非常高。达到44.1x16=705.6kbps，或即88.2kBbps。比特率高就意味着要求的存储容量很大。要记录1分钟的音乐，就需要5.292MB的存储容量。对于两路立体声，就需要10.584MB。而要记录几十分钟的音乐就需要几百兆的存储容量。

PCM编码原理

把模拟信号转换成数字信号的过程称为模/数转换，它主要包括:

采样:在时间轴上对信号数字化;

量化:在幅度轴上对信号数字化;

编码:按一定格式记录采样和量化后的数字数据。

脉冲编码调制PCM(Pulse Code Modulation)是一种模数转换的最基本编码方法，CD-DA就是采用的这种编码方式。

采样频率

采样频率是指一秒钟内采样的次数。奈奎斯特(Harry Nyquist)

采样理论

如果对某一模拟信号进行采样，则采样后可还原的最高信号频率只有采样频率的一半，或者说只要采样频率高于输入信号最高频率的两倍，就能从采样信号系列重构原始信号。

根据该采样理论，CD激光唱盘采样频率为44KHz，可记录的最高音频为22KHz，这样的音质与原始声音相差无几，也就是我们常说的超级高保真音质(Super High Fidelity-HiFi)。

采样的三个标准频率

采样的三个标准频率分别为:44.1KHz，22.05KHz和11.025KHz。

量化位数

量化位是对模拟音频信号的幅度轴进行数字化，它决定了模拟信号数字化以后的动态范围。由于计算机按字节运算，一般的量化位数为8位和16位。量化位越高，信号的动态范围越大，数字化后的音频信号就越可能接近原始信号，但所需要的存贮空间也越大。

量化位等份动态范围(dB) 应用 8 256 48-50 数字 16 65536 96-100 CD-DA 声道数有单声道和双声道之分。双声道又称为立体声，在硬件中要占两条线路，音质、音色好，但立体声数字化后所占空间比单声道多一倍。

编码算法

编码的作用一是采用一定的格式来记录数字数据，二是采用一定的算法来压缩数字数据。

压缩比

压缩编码的基本指标之一就是压缩比:压缩比通常小于1。压缩算法包括有损压缩和无损压缩;有损压缩指解压后数据不能复原，要丢失一部分信息。压缩比越小，丢掉的信息越多、信号还原后失真越大。根据不同的应用，可以选用不同的压缩编码算法，如PCM，ADPC，MP3，RA等等。

数据率及数据文件格式

数据率为每秒bit数，它与信息在计算机中的实时传输有直接关系，而其总数据量又与计算机的存储空间有直接关系。因此，数据率是计算机处理时要掌握的基本技术参数，未经压缩的数字音频数据率可按下式计算:

数据率=采样频率(Hz)×量化位数(bit)×声道数(bit/s)

用数字音频产生的数据一般以WAVE的文件格式存贮，以".WAV"作为文件扩展名。WAV文件由三部分组成:文件头，标明是WAVE文件、文件结构和数据的总字节;数字化参数如采样率、声道数、编码算法等等;最后是实际波形数据。WAVE格式是一种Windows下通用的数字音频标准，用Windows自带的媒体播放器可以播放WAV文件。MP3的应用虽然很看好，但目前还需专门的播放软件，其中较成熟的为RealPlayer。

为了存储数字化了的音乐，就只能尽量开发高容量的存储系统。在70年代末，终于开发出了利用激光读写的光盘存储系统。因为这种光盘比起密纹唱片，无论在体积和重量上都要小得多，轻得多，所以称它为CD(CompactDisk)。意思为轻便的碟片。而一张CD的容量大约为650MB，也就只能存储61.4分钟音乐。

纯粹音乐CD通常也称为CD-DA。DA就是数字音频(Digital Audio)的缩写。它的技术指标是由一本所谓的"红皮书"所定义。这本红皮书是菲立普公司和索尼公司在1980年公布的。以后，在1987年，又由国际电工委员会(IEC)制定为IEC908标准。根据这些标准可以比较精确地计算一张CD所能存储的音乐时间。实际上在CD碟片中是以扇区为单位的，每个扇区中所包含的字节数为2352个字节。总共有345k个扇区。因此总的字节数为345kx2352=811440kB。可以存放76.92分钟的立体声音乐。还有一种方法来计算播放的时间，CD在播放时，其播放的速度为每秒钟75个扇区。一张CD有345k个扇区，因而可以播放的时间为345k/75=4600秒=76分40秒。两种方法计算的结果是一样的。

数字音频信号的压缩

因为音频信号数字化以后需要很大的存储容量来存放，所以很早就有人开始研究音频信号的压缩问题。音频信号的压缩不同于计算机中二进制信号的压缩，在计算机中，二进制信号的压缩必须是无损的，也就是说，信号经过压缩和解压缩以后，必须和原来的信号一样，不能有一个比特的错误。这种压缩称为无损压缩。但是音频信号的压缩就不一样，它的压缩可以是有损的只要压缩以后的声音和原来的声音听上去和原来的声音一样就可以了。因为人的耳朵对某些失真并不灵敏，所以，压缩时的潜力就比较大，也就是压缩的比例可以很大。音频信号在采用各种标准的无损压缩时，其压缩比顶多可以达到1.4倍。但在采用有损压缩时其压缩比就可以很高。下面是几种标准的压缩方法的性能。按质量由高往低排列。

需要注意的是，其中的Mbyte不是正好1兆比特，而是1024x1024=1048576Byte。必须指出，这些压缩都是以牺牲音质作为代价的，尤其是最后两种方法，靠降低采样率和降低分辨率来取得的。这对音质的损失太大，所以这些方法并不可取。