深入理解MFCC（梅尔频率倒谱系数）

DEDSEC_Roger 2023-06-16 原文

从倒谱图出发

MFCC是Mel Frequency Cepstral Coefficient的简称，要理解MFCC特征，就需要先明白这里引入的一个新的概念——Cepstral，这个形容词的名词形式为Cepstrum，即倒谱图（频谱图Spectrum前四个字母倒着拼）
倒谱图是用来“提取”语音的音色（timbre）的，音色是区分说话人最有力的特征，尤其是在前深度学习时代。先直接给出求倒谱图的公式：
$C[x(n)] = F^{-1}[ log(|F[x(n)]|^2) ]$
其中 $x (n)$ 是离散化的原始信号， $F[\cdot]$ 是离散傅里叶变换， $log(|\cdot|^2)$ 对离散傅里叶变换的结果，先取幅值，再取平方，最后取对数， $F^{-1}[\cdot]$ 是离散傅里叶逆变换。
下面是每一步的演示图：
最后逆变换得到的倒谱图，横坐标为倒频率（Quefrency，频率的倒数，单位是秒），纵坐标是振幅。
最后一张图中的所谓1st rhamonic，是从倒谱图的右边往左看的第一个尖峰，实际上，这个1st rhamonic对应原始信号的基频。
要理解本节的内容，需要有离散傅里叶变换和梅尔时频谱图的知识，可以参考深入理解傅里叶变换（三）和深入理解梅尔刻度、梅尔滤波器组和梅尔时频谱图。

为什么倒谱图能提取音色

最初发出振动从而产生声音的物体，被称为声源，对于语音而言，声源就是人的声带。
人的肺部排出气体，这些气体通过声门（glottis），形成脉冲（glottis pulse），此时的脉冲频率决定了声音的音高，脉冲使声带振动，声带具有共振频率，会加强该脉冲。因为声源就是人的声带，所以声带的共振频率，称为此时这段语音的基频。
该脉冲还需要通过声道（vocal tract）才能从人的口中离开，成为能听到的语音。声道具有共振频率，随着声道的形状和大小变化，共振频率会发生变化，声道的共振频率的存在，使语音信号出现共振峰。
声门脉冲、基频和共振峰、声强，对应声音的三要素：音高、音色、响度。
那么倒谱图为什么能提取音色呢？我们想象最开始通过声门的气体，是一种信号，称为Glottal pulses，记为 $h (t)$ ，声带和声道的作用等效为一个复杂的滤波器，记为 $e (t)$ ，输出的语音信号是Glottal pulses被声道滤波后的信号，记为 $x (t)$ ，注意，此时都是连续信号，那么存在下列等式：
$x (t) = h (t) * e (t)$
其中， $*$ 指卷积运算。离散化之后，再进行离散傅里叶变换，时域卷积等价于频域乘积：
$\cdot E(n)$
接下来，先取幅值，再取平方，最后取对数：
$log[|X(n)|^2] = 2log|H(n)| + 2log|E(n)|$
现在已经将语音信号，分解成两个信号的和了，如下图：
左下角是 $2 l o g ∣ E (n) ∣$ ，右下角是 $2 l o g ∣ H (n) ∣$ ，左下角实际上是语音信号的包络线，右下角是语音信号减去包络线之后的信号。其中，包络线有几个突起的峰（原本应该是尖峰，取对数之后平滑了），表征了基频和共振峰，是我们希望提取的信号。
最后一步是是用离散傅里叶逆变换，得到倒谱图。

MFCC

对于一段音频，MFCC的提取流程如下：
1. 对音频信号进行预加重，从而降低部分高频能量。这一步可以简单采用下式处理：
  $\alpha x[n-1],0.9 \le \alpha \le 1.0$
2. 短时傅里叶变换
3. 梅尔滤波器滤波，得到梅尔时频谱图
4. 取对数，分离信号
5. 离散余弦变换
6. 选取倒谱系数
MFCC的提取过程改良了最后一步，把离散傅里叶逆变换，改成了离散余弦变换。
因为log-power spectrum的信号，可以视为两个信号的叠加，而我们要提取的基频和共振峰，可以视为叠加后的信号的低频部分。
所以MFCC将log-power spectrum视为一种时域信号，对其进行傅里叶分析，然后取前 $n_{mfcc}$ 个频率所对应的运算值，作为最后的MFCC特征。
此外，使用离散余弦变换有如下的好处：
- 是简化版的离散傅里叶变换
- 运算结果是实数，正是MFCC所需要的
- 解耦了不同梅尔滤波器组之间的重合权重，使提取出的特征更加相互独立，适用于机器学习
- 输入log-power spectrum，输出MFCC特征，起到了降维作用

MFCC的输出

通常选取前12个系数，再拼接一个当前frame的能量，共13个。
越靠前的系数，包含越多的基频和共振峰的信息。
取得13个系数后，还会在时序上，对13个系数求一阶差分和二阶差分，二阶差分等价于对一阶差分求一阶差分。一阶差分有后向差分、前向差分的区别，也可以对后向差分和前向差分求均值得到中心差分，中心差分误差最小：
- 前向差分
  $\Delta x[n] = x[n+1] - x[n]$
- 后向差分
  $\Delta x[n] = x[n] - x[n-1]$
- 中心差分
  $\Delta x[n] = \frac{x[n+1]-x[n-1]}{2}$
其中， $x [n]$ 表示第n帧的13个系数，将一阶差分和二阶差分与原函数值拼接起来，得到39个系数。
MFCC的输出可以表示为一个二维数组，shape为 $n_{mfcc},frames]$ ，由于是二维数组，所以可以用热力图可视化。

MFCC的优缺点

优点
- 相比较梅尔时频谱图，以更少的数据量描述了时频谱图的信息，前者滤波器个数通常为80，MFCC特征个数通常为39
- 相比较梅尔时频谱图，特征之间的相关性更低，具有更好的区分性
- 能提取出表征基频和共振峰的信息，滤去其他无关信息
- 在基于GMM的声学模型中效果较好
缺点
- 相比较梅尔时频谱图，计算量更大，因为MFCC是在梅尔时频谱图的基础上得到的
- 对噪声，尤其是加性噪声，不够鲁棒
- 人工设计的痕迹太重，导致更大的经验风险
- 对语音合成无效，因为不存在从MFCC特征到音频信号的逆变换

演示

注意：librosa的MFCC提取算法，
- 默认没有将当前frame的能量作为第13个系数，可以自行求，然后拼接
- 此外，默认没有一阶差分和二阶差分，也可以自行求，然后拼接
下列代码就计算了一阶差分和二阶差分，然后拼接并可视化。

import librosa
import librosa.display
import matplotlib.pyplot as plt
import numpy as np

if "__main__" == __name__:
    filepath = r"20- Extracting MFCCs with Python\female_audio.wav"
    signal, sr = librosa.load(path=filepath, sr=16000)
    N_FFT = 512
    N_MELS = 80
    N_MFCC = 13

    mel_spec = librosa.feature.melspectrogram(y=signal,
                                              sr=sr,
                                              n_fft=N_FFT,
                                              hop_length=sr // 100,
                                              win_length=sr // 40,
                                              n_mels=N_MELS)
    mfcc = librosa.feature.mfcc(S=librosa.power_to_db(mel_spec), n_mfcc=N_MFCC)

    delta_mfcc = librosa.feature.delta(data=mfcc)
    delta2_mfcc = librosa.feature.delta(data=mfcc, order=2)
    mfcc = np.concatenate([mfcc, delta_mfcc, delta2_mfcc], axis=0)

    librosa.display.specshow(data=mfcc,
                             sr=sr,
                             n_fft=N_FFT,
                             hop_length=sr // 100,
                             win_length=sr // 40,
                             x_axis="s")
    plt.colorbar(format="%d")

    plt.show()

音频信号处理的知识非常广袤，本系列只讲解了用于机器学习的音频信号处理知识。

梅尔深入 span class style 音频 python 算法傅里叶分析语音识别

有关深入理解MFCC（梅尔频率倒谱系数）的更多相关文章

CAN协议的学习与理解 - 2
最近在学习CAN，记录一下，也供大家参考交流。推荐几个我觉得很好的CAN学习，本文也是在看了他们的好文之后做的笔记首先是瑞萨的CAN入门，真的通透；秀！靠这篇我竟然2天理解了CAN协议！实战STM32F4CAN！原文链接：https://blog.csdn.net/XiaoXiaoPengBo/article/details/116206252CAN详解（小白教程）原文链接：https://blog.csdn.net/xwwwj/article/details/105372234一篇易懂的CAN通讯协议指南1一篇易懂的CAN通讯协议指南1-知乎(zhihu.com)视频推荐CAN总线个人知识总
TimeSformer：抛弃CNN的Transformer视频理解框架 - 2
Transformers开始在视频识别领域的“猪突猛进”，各种改进和魔改层出不穷。由此作者将开启VideoTransformer系列的讲解，本篇主要介绍了FBAI团队的TimeSformer，这也是第一篇使用纯Transformer结构在视频识别上的文章。如果觉得有用，就请点赞、收藏、关注！paper:https://arxiv.org/abs/2102.05095code(offical):https://github.com/facebookresearch/TimeSformeraccept:ICML2021author:FacebookAI一、前言Transformers(VIT)在图
ruby - 易于初学者理解的 Ruby 库 - 2
关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭3年前。Improvethisquestion我正处于学习Ruby的阶段，我想查看一些小型库的源代码以了解它们是如何构建的。我不知道什么是小型图书馆，但希望SO能推荐一些易于理解的图书馆来学习。因此，如果有人知道一两个非常小的库，这是新手Rubyists学习的好例子，请推荐!我想使用Manveru'sInnatelib，因为它试图保持在2000LOC以下，但我还不熟悉其中经常使用的Ruby速记。也许大约100-5
ruby - 无法理解 `puts{}.class` 和 `puts({}.class)` 之间的区别 - 2
由于匿名block和散列block看起来大致相同。我正在玩它。我做了一些严肃的观察，如下所示:{}.class#=>Hash好的，这很酷。空block被视为Hash。print{}.class#=>NilClassputs{}.class#=>NilClass为什么上面的代码和NilClass一样，下面的代码又显示了Hash？puts({}.class)#Hash#=>nilprint({}.class)#Hash=>nil谁能帮我理解上面发生了什么？我完全不同意@Lindydancer的观点你如何解释下面几行:print{}.class#NilClassprint[].class#A
ruby - 如何理解 Ruby 中的发送者和接收者？ - 2
我很难理解Ruby中sender和receiver的实际含义。它们一般是什么意思？到目前为止，我只是将它们理解为方法调用和获取其返回值的调用。但是，我知道我的理解还远远不够。谁能给我一个Ruby中发送者和接收者的具体解释？最佳答案面向对象中的一个核心概念是消息传递和早期概念化，这在很大程度上借鉴了计算的Actor模型。艾伦·凯(AlanKay)创造了面向对象一词并发明了最早的OO语言之一SmallTalk，他拥有voicedregretatusingatermwhichputthefocusonobjectsinsteadofo
ruby-on-rails - Rails - 理解 application.js 和 application.css - 2
rails新手。只是想了解\assests目录中的这两个文件。例如，application.js文件有如下行://=requirejquery//=requirejquery_ujs//=require_tree.我理解require_tree。只是将所有JS文件添加到当前目录中。根据上下文，我可以看出requirejquery添加了jQuery库。但是它从哪里得到这些jQuery库呢？我没有在我的Assets文件夹中看到任何jquery.js文件——或者直接在我的整个应用程序中没有看到任何jquery.js文件？同样，我正在按照一些说明安装TwitterBootstrap(http:
ruby - 按数组中出现的频率排序 - 2
有没有一种有效的方法来做到这一点。我有一个数组a=[1,2,2,3,1,2]我想按升序输出出现的频率。示例[[3,1],[1,2],[2,3]]这是我的ruby代码。b=a.group_by{|x|x}out={}b.eachdo|k,v|out[k]=v.sizeendout.sort_by{|k,v|v} 最佳答案 a=[1,2,2,3,1,2]a.each_with_object(Hash.new(0)){|m,h|h[m]+=1}.sort_by{|k,v|v}#=>[[3,1],[1,2],[2,3]]
ruby - 你如何理解 Ruby 中的这个三元条件？ - 2
我在某些代码中遇到了三元组，但我无法理解条件:str.split(/',\s*'/).mapdo|match|match[0]==?,?match:"somestring"end.join我确实理解我是在某些点上拆分字符串并将总结果转换为数组，然后依次处理数组的每个元素。除此之外，我不知道发生了什么。最佳答案一种(稍微)不那么令人困惑的写法是:str.split(/',\s*'/).mapdo|match|ifmatch[0]==?,matchelse"somestring"endend.join我认为多行三元语句很糟糕，尤其是
ruby - 您如何将 S3 理解为 Ruby 中的分层目录结构？ - 2
有没有人成功地将S3存储桶读取为子文件夹？文件夹1--子文件夹2----文件3----文件4--文件1--文件2文件夹2--子文件夹3--文件5--文件6我的任务是读取文件夹1。我希望看到子文件夹2、文件1和文件2，但看不到文件3或文件4。现在，因为我将存储桶键限制为prefix=>'folder1/'，你仍然会得到file3和4，因为它们在技术上具有folder1前缀。似乎真正做到这一点的唯一方法是吸收folder1下的所有键，然后使用字符串搜索从结果数组中实际排除file3和file4。有没有人有过这方面的经验？我知道像Transmit和Cyberduck这样的FTP风格的S3
关于yolov5训练时参数workers和batch-size的理解 - 2
关于yolov5训练时参数workers和batch-size的理解yolov5训练命令workers和batch-size参数的理解两个参数的调优总结yolov5训练命令python.\train.py--datamy.yaml--workers8--batch-size32--epochs100yolov5的训练很简单，下载好仓库，装好依赖后，只需自定义一下data目录中的yaml文件就可以了。这里我使用自定义的my.yaml文件，里面就是定义数据集位置和训练种类数和名字。workers和batch-size参数的理解一般训练主要需要调整的参数是这两个：workers指数据装载时cpu所使

深入理解MFCC（梅尔频率倒谱系数）

从倒谱图出发

为什么倒谱图能提取音色

MFCC

MFCC的输出

MFCC的优缺点

演示

有关深入理解MFCC（梅尔频率倒谱系数）的更多相关文章

随机推荐