音频基础知识

本文最后更新于：2024年5月7日下午

之前对图像接触比较多，心血来潮学习一下音频知识（诶嘿）。

前言

现实生活中，我们听到的声音都是时间连续的，我们称为这种信号叫模拟信号。模拟信号需要进行数字化以后才能在计算机中使用。

音频文件的生成过程是将声音信息采样、量化和编码产生的数字信号的过程，我们人耳所能听到的声音频率范围为（20Hz~20KHz），因此音频文件格式的最大带宽是20KHZ。

根据奈奎斯特的理论，音频文件的采样率一般在40~50KHZ之间。

奈奎斯特采样定律，又称香农采样定律，即：为了不失真地恢复模拟信号，采样频率应该大于等于模拟信号频谱中最高频率的2倍。

声音

声音的本质是一种能量波，由振动而产生的能量波，通过传输介质传输出去。

声音的属性

声音有三个属性：音调、音量、音色，但表示声波用的是一维信号，这个信号如何表示这三个属性？

音调：声音频率的高低，表示人的听觉分辨一个声音的调子高低的程度。音调主要由声音的频率决定，同时也与声音强度有关。
音量：由“振幅”（amplitude）和人离声源的距离决定，振幅越大响度越大。
音色：又称声音的品质，波形决定了声音的音色。

波长决定音调高低；

振幅决定音量高低；

波纹决定音色。

PCM

PCM（Pulse Code Modulation），即脉冲编码调制技术。

由于我们人耳听到的声音均为模拟信号，那么我们如何将听到的信息存储起来呢？这就涉及到了PCM技术。

PCM技术就是把声音从模拟信号转化为数字信号的技术，即对声音进行采样、量化的过程，经过PCM处理后的数据，是最原始的音频数据，即未对音频数据进行任何的编码和压缩处理。

原理

脉冲编码调制就是把一个时间连续，取值连续的模拟信号变换成时间离散，取值离散的数字信号后在信道中传输。脉冲编码调制就是对模拟信号先抽样，再对样值幅度量化，编码的过程。

简化来说：PCM脉冲编码调制，以一个固定的频率对模拟信号进行采样，并将采样的信号按照一定精度进行量化，最终量化后的值被输出，记录到存储介质中。

原始模拟音频数据如下

按照固定频率进行采样，得到

最后，对采样后的数据选择合适精度进行量化：

采样

是指把物理信号转化为数字信号的过程。

采样频率

单位时间内对模拟信号的采样次数，它用赫兹（Hz）来表示。采样频率越高，声音的还原就越真实越自然，当然数据量就越大。

形象来说，采样频率是指将模拟信号转换成数字信号时的采样频率，也就是单位时间内采样多少点。

拿声音来说，采样频率可以是描述声音文件的音质、音调，衡量声卡、声音文件的质量标准。采样频率越高，即采样的间隔时间越短，则在单位时间内计算机得到的样本数据就越多，对信号波形的表示也越精确。

采样频率一般共分为22.05KHz、44.1KHz、48KHz三个等级。

频率概念理解

频率	日常概念
5kHz	仅能达到人们讲话的声音质量。
11kHz	播放小段声音的最低标准，是CD音质的四分之一。
22kHz	CD音质的一半，目前大多数网站都选用这样的采样率。
44kHz	标准的CD音质，可以达到很好的听觉效果。
48kHz	miniDV、数字电视、DVD、电影和专业音频。

采样位数

采样位数（Sample Bits）：又称为采样精度，量化级，也相当于每个采样点所能被表示的数据范围。

采样位数通常有8bits或16bits两种，采样位数越大，所能记录声音的变化度就越细腻，相应的数据量就越大。

8bits为低品质，16bits为高品质，16bits最为常见。

声道数

声道数（Channels）：又称为通道数，指的是：能支持不同发声的音响个数，它是衡量音响设备的重要指标之一。

单声道的声道数为1个声道；

双声道的声道数为2个声道；

立体声道的声道数默认为2个声道；

立体声道（4声道）的声道数为4个声道。

比特率

比特率是指将模拟信号转化为数字信号后，单位时间内的二进制数据量，是衡量音视频质量的指标之一。单位为比特每秒(bps或者bit/s)。

单位时间内比特率越大，精度就越高，处理出来的文件就越接近原始文件，音视频文件的质量也越高。

1
2
3

1000 bit/s = 1 kbit/s （一千位每秒）
1000 kbit/s = 1 Mbit/s （一兆或一百万位每秒）
1000 Mbit/s = 1 Gbit/s (一吉比特或十亿位每秒）

拿声音来说，能够分辨语音的最低比特率为800bps，通话质量一般来说是8kbps, FM广播一般是96kbps, MP3文件范围在8-320kbps之间(一般为128kpbs)， 16位CD一般为 1411kbps。

音频比特率计算公式：
$$
【比特率】（kbps)=【量化采样点】（kHz）×【位深】（bit/采样点）×【声道数量】（一般为2）
$$

在视频中，比特率又常被称为码率。16kbps为可视电话质量，128-384kpbs为商用视频会议质量，VCD一般为1.25Mbps，DVD为5Mkpbs，蓝光光碟为40Mbps。

计算公式为：【码率】(kbps)=【文件大小】(KB) * 8 / 【时间】(秒)。

比如一部1G的电影，时长60分钟，那么它的码率则为 1 x 1024 x 1024 x 8 / 3600 = 2300Kbps/s。

例如：

如果是CD音质，采样率44.1KHz，采样位数16bit，立体声(双声道)
$$
码率 = 44.1 * 1000 * 16 * 2 = 1411200bps = 176400Bps
$$
那么录制一分钟的音乐，文件大小大概：
$$
176400 * 1 * 60 / 1024 / 1024 =10.09MB
$$

音频数据大小计算

知道上面几个概念，我们就能够计算出来一个原始的音频文件所占用空间大小了。
$$
空间大小 ( Byte )= 采样频率 (h z) * 时长 (s) * 采样位数 (b i t) * 声道数 / 8
$$

量化

量化：量化就是通过四舍五入的方法将采样后的模拟信号转换成一种数字信号的过程。

对于采样来说，就是在时间轴上对信号数字化；
对于量化来说，就是在幅度轴上对信号数字化

通过采样时测的的模拟电压值，要进行分级量化，按整个电压变化的最大幅度划分成几个区段，把落在某区段的采样到的样品值归成一类，并给出相应的量化值。

压缩

PCM数据是最原始的音频数据，完全无损，所以PCM数据虽然音质优秀但体积庞大，为了解决这个问题先后诞生了一系列的音频格式，这些音频格式运用不同的方法对音频数据进行压缩，其中有无损压缩和有损压缩两种。

无损压缩：将数据压缩之后，通过解码还能还原成与原始数据一模一样的数据为无损压缩。
- ALAC、APE、FLAC
有损压缩：消除冗余信息，如人耳能听到的声音为 20Hz - 20000Hz 以内，所以可以将此范围外的声音去除掉。
- MP3、AAC、OGG、WMA

其他相关概念

概念	含义
帧（Frame）	声音的基本数据单元，其长度为采样位数和通道数的乘积。
周期（Period Size）	音频设备一次处理所需要的帧数，对于音频设备的数据访问以及音频数据的存储，都是以此为单位。硬件缓冲传输单位，即完成这么多采样帧的传输，就会回馈一个中断。
Buffer Bytes	一个应用Buffer有多少个字节，DMA缓冲区大小。
Sign	表示样本数据是否是有符号位。
Byte Ordering	字节序，表明数据是小端（little-endian）存储还是大端（big-endian）存储，通常均为little-endian。
nteger Or Floating Point	整形或者浮点型，大多数格式的PCM样本数据使用整形表示。
交错模式	数字音频信号存储的方式。数据以连续帧的方式存放，即首先记录第一帧的左声道样本和右声道样本，再开始第2帧的记录。
非交错模式	首先记录的是一个周期内所有帧的左声道样本，再记录所有右声道样本。
音频帧	音频数据是流式的，本身没有明确的一帧帧的概念，在实际的应用中，为了音频算法处理/传输的方便，一般约定俗成取2.5ms~60ms为单位的数据量为一帧音频。

因为Buffer Size由应用设置，其可大可小，若其太大，则传输的延时太大，所以对此进行分片，提出Period的概念。overrun，录制时，数据都满了，应用来不及取走；underrun，需要数据来播放，应用来不及写入数据

以FFmpeg中常见的PCM数据格式 s16le 为例：它描述的是有符号16位小端PCM数据。

s表示有符号，16表示位深，le表示小端存储。

参考资料

文章链接：
https://www.zywvvd.com/notes/study/audio/audio-basics/audio-basics/

“觉得不错的话，给点打赏吧 ୧(๑•̀⌄•́๑)૭”

微信支付

支付宝支付

Audio

#Audio

音频基础知识

https://www.zywvvd.com/notes/study/audio/audio-basics/audio-basics/

作者

Yiwei Zhang

发布于

2023年5月17日

许可协议

条件变分自编码器 CVAE 上一篇

申请 ChatGPT 3.5 API key 下一篇