jjzjj

从费舍尔信息矩阵(Fisher Information Matrix, FIM)到自然梯度法

参考:TRPO系列讲解FisherInformationMatrixNaturalGradientDescent文章目录0.Preliminary1.黎曼空间与黎曼流形1.1黎曼空间1.2黎曼流形2.海森矩阵、费舍尔信息矩阵和KL散度2.1海森矩阵2.2费舍尔信息矩阵2.2.1定义2.2.2与海森矩阵的关系2.2.3与KL散度的关系3.自然梯度法3.1使用欧氏空间度量的最速下降法3.2自然梯度法0.Preliminary考虑一个机器学习模型的训练过程。模型本身常常设计为参数化概率模型p(x∣θ)p(x|\pmb{\theta})p(x∣θ),通过优化损失函数L\mathcal{L}L的方式最大

c++ - 费舍尔耶茨变例

经典的FisherYates看起来像这样:voidshuffle1(std::vector&vec){intn=vec.size();for(inti=n-1;i>0;--i){std::swap(vec[i],vec[rand()%(i+1)]);}}昨天,我错误地“向后”实现了迭代:voidshuffle2(std::vector&vec){intn=vec.size();for(inti=1;i这个版本比第一个版本更糟(或更好)吗?它会扭曲结果概率吗? 最佳答案 是的,假设rand()是均匀分布。我们将通过证明每个输入可以等概