探索Matlab语音识别：GMM与MFCC的奇妙之旅

最新推荐文章于 2026-06-25 08:29:33 发布

原创最新推荐文章于 2026-06-25 08:29:33 发布 · 411 阅读

6 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#labview

Matlab语音识别，识别说话内容、识别说话人等，使用GMM和MFCC，有训练集和测试集，带说明等。

在语音识别的领域中，Matlab一直是一个强大的工具。今天，咱们就来聊聊如何利用Matlab实现语音识别，具体涉及识别说话内容以及识别说话人，这里面关键的技术就是高斯混合模型（GMM）和梅尔频率倒谱系数（MFCC），并且还会用到训练集和测试集。

MFCC：提取语音特征的魔法棒

MFCC是语音识别中常用的特征提取方法。它模拟了人类听觉系统对声音频率感知的非线性特性，把语音信号从时域转换到频域，再经过一系列处理得到具有代表性的特征。

在Matlab中，实现MFCC特征提取代码大致如下：

% 读取语音文件
[x, fs] = audioread('test.wav');
% 预加重
pre_emphasis = 0.97;
x = filter([1 -pre_emphasis], 1, x);
% 分帧
frame_size = 0.025; % 25毫秒
frame_stride = 0.01; % 10毫秒
frame_length = round(frame_size * fs);
frame_step = round(frame_stride * fs);
signal_length = length(x);
num_frames = floor((signal_length - frame_length) / frame_step) + 1;
pad_signal_length = (num_frames - 1) * frame_step + frame_length;
z = zeros(pad_signal_length - signal_length, 1);
pad_signal = [x; z];
indices = repmat((1:frame_length)', 1, num_frames) + repmat((0:(num_frames - 1)) * frame_step, frame_length, 1);
frames = pad_signal(indices);
% 加窗
frames = frames.* hamming(frame_length);
% 快速傅里叶变换
NFFT = 512;
mag_frames = abs(fft(frames, NFFT, 1));
pow_frames = ((1 / NFFT) * ((mag_frames).^2));
% 梅尔滤波器组
nfilt = 40;
low_freq_mel = 0;
high_freq_mel = (2595 * log10(1 + (fs / 2) / 700));
mel_points = linspace(low_freq_mel, high_freq_mel, nfilt + 2);
hz_points = (700 * (10.^(mel_points / 2595) - 1));
bin = floor((NFFT + 1) * hz_points / fs);
fbank = zeros(nfilt, floor(NFFT / 2 + 1));
for m = 2 : nfilt + 1
    f_m_minus = bin(m - 1);
    f_m = bin(m);
    f_m_plus = bin(m + 1);
    for k = f_m_minus : f_m
        fbank(m - 1, k) = (k - bin(m - 1)) / (bin(m) - bin(m - 1));
    end
    for k = f_m : f_m_plus
        fbank(m - 1, k) = (bin(m + 1) - k) / (bin(m + 1) - bin(m));
    end
end
filter_banks = fbank * pow_frames';
filter_banks = 20 * log10(filter_banks);
% 离散余弦变换
mfcc = dct(filter_banks);
mfcc = mfcc(2:13, :);

这段代码首先读取语音文件，然后进行预加重，增强高频部分。接着分帧、加窗，再通过傅里叶变换得到频谱，利用梅尔滤波器组进行滤波，最后经过离散余弦变换得到MFCC特征。

GMM：语音模型的构建基石

高斯混合模型（GMM）是一种概率模型，它假设数据是由多个高斯分布混合而成。在语音识别里，我们用GMM为每个说话人或者每种语音内容建立模型。

Matlab语音识别，识别说话内容、识别说话人等，使用GMM和MFCC，有训练集和测试集，带说明等。

Matlab中有函数可以方便地构建和训练GMM模型，比如gmdistribution.fit函数。假设我们已经提取好了MFCC特征，训练GMM模型代码如下：

% 假设mfcc_train是训练集的MFCC特征
num_components = 16; % 高斯成分数量
gmm = gmdistribution.fit(mfcc_train, num_components);

这里gmdistribution.fit函数会根据训练数据mfcctrain来估计GMM的参数，包括每个高斯成分的均值、协方差和权重，numcomponents设定了高斯成分的数量，这是一个需要根据实际情况调整的超参数。

训练集与测试集：验证模型的试金石

为了验证语音识别模型的有效性，我们需要划分训练集和测试集。训练集用于训练GMM模型，而测试集则用来评估模型性能。

假设我们有一批语音数据，按照一定比例（比如70%训练集，30%测试集）划分。

% 假设mfcc_all是所有语音数据的MFCC特征
num_samples = size(mfcc_all, 2);
train_indices = randperm(num_samples, round(0.7 * num_samples));
test_indices = setdiff(1:num_samples, train_indices);
mfcc_train = mfcc_all(:, train_indices);
mfcc_test = mfcc_all(:, test_indices);

上述代码随机选择70%的数据作为训练集，剩下30%作为测试集。

说话人识别与说话内容识别

在说话人识别中，我们为每个说话人分别训练一个GMM模型。测试时，将测试语音的MFCC特征输入各个说话人的GMM模型，计算其对数似然概率，概率最大的模型对应的说话人就是识别结果。

% 假设有3个说话人的训练数据
gmm1 = gmdistribution.fit(mfcc_train1, num_components);
gmm2 = gmdistribution.fit(mfcc_train2, num_components);
gmm3 = gmdistribution.fit(mfcc_train3, num_components);
% 对测试语音计算对数似然概率
loglike1 = log(gmm1.pdf(mfcc_test));
loglike2 = log(gmm2.pdf(mfcc_test));
loglike3 = log(gmm3.pdf(mfcc_test));
[~, winner] = max([loglike1; loglike2; loglike3]);
if winner == 1
    disp('识别为说话人1');
elseif winner == 2
    disp('识别为说话人2');
else
    disp('识别为说话人3');
end

对于说话内容识别，原理类似，只不过是为每种语音内容训练GMM模型，然后在测试时判断属于哪种内容。