ECS-50语音识别数据集baseline模型

最新推荐文章于 2026-06-16 13:57:55 发布

原创

最新推荐文章于 2026-06-16 13:57:55 发布 · 3.1k 阅读

·

3

·

标签

#机器学习 #深度学习 #人工智能 #语音识别 #数字信号处理

本文详细介绍了使用深度学习进行环境声音分类的复现过程。针对esc-50数据集，对比了SVM、NN和CNN的性能，并探讨了n折交叉验证的影响。实验发现，CNN在训练集上表现优秀，但在测试集上过拟合明显。

"Envorinmental Sound Classification using Deep Learning"的复现报告

说明|实验结果|讨论|下一步工作

说明

复现的工作是github上audio-classification。因为这个project的源码比较清楚，所以复现难度几乎为0. 所做的贡献：改写了数据集读取部分，因为原始代码是为esc-10工作的，而esc现在只有esc-50数据集了。

关于n折交叉验证这块，目前有待商榷：

esc-50数据集自己将2000条音频分成了5个fold；每个fold里400条，覆盖了全部50个类，而且确保同一场景不同时间段的音频只在一个fold中出现，避免数据污染。在做n-fold cross validation的时候，esc-50自己给出的baseline数据是分别在各个fold中训练和测试（split_and_test），然后平均5个fold的结果。我个人觉得这么做可能导致每个fold的样本过少，尤其是后来训练DNN和CNN的时候，过拟合非常严重。按照我个人理解，仿照cv的做法，对传统ML方法，如核方法，可以任选4个folds做训练集，剩余一个fold做测试集；对DL方法，把fold5当做测试集，然后对剩余4个folds做4折交叉。实际实验中，对DL方法我并没有做4折交叉，而是做了5折交叉，

最低0.47元/天解锁文章

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。