"Envorinmental Sound Classification using Deep Learning"的复现报告
说明|实验结果|讨论|下一步工作
说明
复现的工作是github上audio-classification。因为这个project的源码比较清楚,所以复现难度几乎为0. 所做的贡献:改写了数据集读取部分,因为原始代码是为esc-10工作的,而esc现在只有esc-50数据集了。
关于n折交叉验证这块,目前有待商榷:
esc-50数据集自己将2000条音频分成了5个fold;每个fold里400条,覆盖了全部50个类,而且确保同一场景不同时间段的音频只在一个fold中出现,避免数据污染。在做n-fold cross validation的时候,esc-50自己给出的baseline数据是分别在各个fold中训练和测试(split_and_test),然后平均5个fold的结果。我个人觉得这么做可能导致每个fold的样本过少,尤其是后来训练DNN和CNN的时候,过拟合非常严重。按照我个人理解,仿照cv的做法,对传统ML方法,如核方法,可以任选4个folds做训练集,剩余一个fold做测试集;对DL方法,把fold5当做测试集,然后对剩余4个folds做4折交叉。实际实验中,对DL方法我并没有做4折交叉,而是做了5折交叉,

本文详细介绍了使用深度学习进行环境声音分类的复现过程。针对esc-50数据集,对比了SVM、NN和CNN的性能,并探讨了n折交叉验证的影响。实验发现,CNN在训练集上表现优秀,但在测试集上过拟合明显。

310

被折叠的 条评论
为什么被折叠?



