一次组内的技术分享,没有什么涉密内容,记录下来方便以后回顾,也可以分享给有需要的朋友一起讨论。
Warning
- 很多内容是自己总结出来的,不保证正确性。
- heavy math!
- 对于大家日常工作应用作用可能不是特别大。
内容安排
- 问题引出:5~10分钟
- 数学推导:20分钟(能力有限,这段可能讲不清楚,不需要的同学可以关注问题与最后的结论)
- 回到目标问题:5~10分钟
- 推广到其他问题:10分钟
- 总结:5分钟
互信息
从对比学习 loss 形态开始谈起
概念与问题定义
对比学习常见的loss,但是为什么是这样?

比如softmax或者lr这样的模型,其问题假设与目标存在清晰的推导关系。即,为什么使用这样的激活,这样的loss函数,最终我们都能在GLM理论中找到依据。
正例比较近,负例比较远,那这个呢(refer DGI;2019 ICLR)?
L = 1 m Σ i = 0 m [ l o g T ( x i , y i ) − Σ j = 0 K l o g ( 1 − T ( x i , y j ) ) ] L=\frac{1}{m}\Sigma_{i=0}^m[logT(x_i,y_i)-\Sigma_{j=0}^Klog(1-{T(x_i,y_j)})] L=m1Σi=0m[logT(xi,yi)−Σj=0Klog(1−T(xi,yj))]

本文探讨了互信息在深度学习中的应用,特别是InfoNCE估计器的推导过程,以及温度对下界紧致性的影响。通过实例如Moco、SimCLR和DeepInfomax,展示了互信息在预训练和特征提取中的作用。讲解了如何通过凸共轭和f-散度下界估计互信息,以及变分估计在实际问题中的优化策略。


被折叠的 条评论
为什么被折叠?



