本次新人赛是Datawhale与天池联合发起的零基础入门系列赛事第八场 —— 零基础入门语音识别-食物声音识别挑战赛。
baseline及用图由开源学习组织Datawhale提供
https://github.com/datawhalechina/team-learning
语音识别基础与发展
语音识别的基础
语音识别全称为“自动语音识别”,Automatic Speech Recognition (ASR), 一般是指将语音序列转换成文本序列。语音识别最终是统计优化问题,给定输入序列O={O1,…,On},寻找最可能的词序列W={W1,…,Wm},即寻找使得概率P(W|O)最大的词序列。
大多数语音识别的研究都是分别求取声学和语言模型,并把很多精力放在声学模型的改进上。但后来,基于深度学习和大数据的端到端(End-to-End)方法发展起来,能将声学和语言模型融为一体,直接计算P(W|O)。
语音识别的发展
·传统机器学习,基于统计的GMM-HMM,其中HMM (隐马尔可夫模型,Hidden Markov Model)用来描述信号动态特性(即语音信号相邻帧间的相关性),GMM(高斯混合模型,Gaussian Mixed Model)用来描述HMM每个状态的静态特性(即HMM每个状态下语音帧的分布规律);
·与深度学习结合,DNN-RNN、DNN-HMM,可引入LSTM(长短期记忆网络,Long Short-Term Memory),DNN(深度学习网络,Deep Neural Networks),RNN(循环神经网络,Recurrent Neural Network);
·迁移学习(Transfer learning)算法、以及注意力(Attention)机制的基于语音频谱图的CNN(卷积神经网络,Convolutional Neural Network)模型的兴起。
语音识别方法
语音识别系统在长久的发展中形成了完整的流程(从前端语音信号处理,到声

本文介绍了Datawhale与天池合作的语音识别食物声音识别挑战赛,涵盖了语音识别基础、发展史、方法概述,以及深度学习在声学模型和语言模型中的应用。学习者分享了通过比赛学习的心得,强调了集成学习和Python的重要性。

2713

被折叠的 条评论
为什么被折叠?



