jjzjj

从费舍尔信息矩阵(Fisher Information Matrix, FIM)到自然梯度法

参考:TRPO系列讲解FisherInformationMatrixNaturalGradientDescent文章目录0.Preliminary1.黎曼空间与黎曼流形1.1黎曼空间1.2黎曼流形2.海森矩阵、费舍尔信息矩阵和KL散度2.1海森矩阵2.2费舍尔信息矩阵2.2.1定义2.2.2与海森矩阵的关系2.2.3与KL散度的关系3.自然梯度法3.1使用欧氏空间度量的最速下降法3.2自然梯度法0.Preliminary考虑一个机器学习模型的训练过程。模型本身常常设计为参数化概率模型p(x∣θ)p(x|\pmb{\theta})p(x∣θ),通过优化损失函数L\mathcal{L}L的方式最大