深度学习的高阶数学

由于图片外链被禁止了,图片不能显示,完整文章看这里吧:https://zhuanlan.zhihu.com/p/56159815

有了基础的《概率/统计》、《线性代数》、《微积分》知识,就可以上手深度学习的算法和实践了。但经过一段时间的工程实践,慢慢觉得大多数时间都用在选模型,调超参,或者是网络结构的排列组合上。深度学习的黑盒特性越来越明显。难道深度学习工程师就当真是数据“炼丹师”吗?
如果,你有了这样的感觉,下面的视频不妨抽时间看看(都需要翻墙):

李宏毅《Machine Learning and having it deep and structured》

不多说,直接看目录吧。
课程地址:http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS18.html
《Theory 1 - Why Deep Structure》
Can shallow network fit any function
Potential of Deep
Is Deep better than Shallow
《Theory 2 - Optimization》
When Gradient is Zero
Deep Linear Network
Does Deep Network have Local Minima
Geometry of Loss Surfaces (Conjecture)
Geometry of Loss Surfaces (Empirical)
《Theory 3 - Generalization 》
Capability of Generalization
Indicator of Generalization

Sanjeev Arora《The mathematics of machine learning and deep learning》

视频地址:https://www.youtube.com/watch?v=r07Sofj_puQ
这是ICM2018的主题演讲,虽然Sanjeev Arora作为普林斯顿计算机科学的教授,但演讲内容深入浅出,并没有涉及大量的数学公式和推导,这里贴一下提纲:
内容提纲

小结

这两部分的内容是相互呼应的,可以先看李宏毅老师的课程,然后在看Sanjeev Arora教授的分享总结。