ECS-50语音识别数据集baseline模型

本文详细介绍了使用深度学习进行环境声音分类的复现过程。针对esc-50数据集,对比了SVM、NN和CNN的性能,并探讨了n折交叉验证的影响。实验发现,CNN在训练集上表现优秀,但在测试集上过拟合明显。

"Envorinmental Sound Classification using Deep Learning"的复现报告

说明|实验结果|讨论|下一步工作

说明

复现的工作是github上audio-classification。因为这个project的源码比较清楚,所以复现难度几乎为0. 所做的贡献:改写了数据集读取部分,因为原始代码是为esc-10工作的,而esc现在只有esc-50数据集了。

关于n折交叉验证这块,目前有待商榷:

esc-50数据集自己将2000条音频分成了5个fold;每个fold里400条,覆盖了全部50个类,而且确保同一场景不同时间段的音频只在一个fold中出现,避免数据污染。在做n-fold cross validation的时候,esc-50自己给出的baseline数据是分别在各个fold中训练和测试(split_and_test),然后平均5个fold的结果。我个人觉得这么做可能导致每个fold的样本过少,尤其是后来训练DNN和CNN的时候,过拟合非常严重。按照我个人理解,仿照cv的做法,对传统ML方法,如核方法,可以任选4个folds做训练集,剩余一个fold做测试集;对DL方法,把fold5当做测试集,然后对剩余4个folds做4折交叉。实际实验中,对DL方法我并没有做4折交叉,而是做了5折交叉,

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值