jjzjj

有限差法(Finite Difference)求梯度和Hessian Matrix(海森矩阵)的python实现

Remote Sensing 2023-08-30 原文

数学参考

有限差方法求导,Finite Difference Approximations of Derivatives,是数值计算中常用的求导方法。数学上也比较简单易用。本文主要针对的是向量值函数,也就是 f ( x ) : R n → R f(x):\mathbb{R^n}\rightarrow \mathbb{R} f(x):RnR当然,普通的标量值函数是向量值函数的一种特例。

本文采用的数学参考是:有限差方法
参考的主要是Central Difference Approximations小节中的Second-order derivatives based on gradient calls的那个公式。

代码

用法

将下面代码中的Hessian矩阵一节中的Hessian函数直接复制到你的代码中,然后就可以按照用法示例使用。

特别要注意,eps的选择比较关键,直接决定了有限差方法的精度。建议大家根据函数参数的数量级动态的设置,例如某参数变化范围1-10,就可以设置为0.001;而某参数变化范围为0-0.0001,则可设置为0.000001,之类的。

用法示例

def func(x):
    x_0 = x[0]
    x_1 = x[1]
    return x_0**2 + x_1**2
hessian(func, [0,0], esp = [0.01, 0.01])

得到结果:

array([[2., 0.],
       [0., 2.]], dtype=float32)

函数主体

准备

本文的方法只需要numpy包,几乎可以说不需要任何包,而且不受到什么限制,只要满足输入格式就能求取,比所谓autogradnumdifftools好用的多。

梯度函数

为了求Hessian矩阵,本文采用的方法需要首先求取梯度。首先需要有一个函数func,示例的func如下:

def func(x, **args):
    x_0 = x[0]
    x_1 = x[1]
    return x_0**2 + x_1**2

该函数是一个 R 2 → R \mathbb{R^2}\rightarrow \mathbb{R} R2R的函数。将该函数输入进下面的函数grad_func_generator中之后,就可以返回梯度函数,支持在任何一点求取梯度。这里输入x应该是一个列表,是各个维度的输入。例如x = [0,0].

def grad_func_generator(func, eps = 0.00001):
    def gradient_func(point):
        n_var = len(point)
        gradient = np.zeros(n_var, np.float32)
        # nth gradient
        for i in range(n_var):
            # 初始化左点和右点,同时不改变原来的展开点
            left_point = point.copy()
            right_point = point.copy()
            left_point[i] = point[i] - eps
            right_point[i] = point[i] + eps
            gradient[i] = (func(right_point) - func(left_point))/(2*eps)
        return gradient
    return gradient_func

求取梯度:

grad_f = grad_func_generator(func) # 生成梯度函数
grad_f([1,1])

可以得到结果:

array([2., 2.], dtype=float32)

Hessian矩阵

利用已经实现的梯度函数,可以实现Hessian矩阵。

# -*- coding: utf-8 -*-
# @author: Dasheng Fan
# @email: fandasheng1999@163.com

def hessian(func, point = [0, 0], eps = [0.001, 0.001]):
    """
    Hessian matrix of func at expendung point.
    """
    n_var = len(point)
    def grad_func_generator(func):
        def gradient_func(point):
            gradient = np.zeros(n_var, np.float32)
            # nth gradient
            for i in range(n_var):
                # 初始化左点和右点,同时不改变原来的展开点
                left_point = point.copy()
                right_point = point.copy()
                left_point[i] = point[i] - eps[i]
                right_point[i] = point[i] + eps[i]
                gradient[i] = (func(right_point) - func(left_point))/(2*eps[i])
            return gradient
        return gradient_func

    grad_func = grad_func_generator(func)
    hessian_matrix = np.zeros((n_var, n_var), np.float32)
    for i in range(n_var):
        for j in range(n_var):
            # 第一项
            left_point_j = point.copy()
            right_point_j = point.copy()
            right_point_j[j] = point[j] + eps[j]
            left_point_j[j] = point[j] - eps[j]
            diff_i = (grad_func(right_point_j)[i] - grad_func(left_point_j)[i])/(4*eps[j])
            # 第二项
            left_point_i = point.copy()
            right_point_i = point.copy()
            right_point_i[i] = point[i] + eps[i]
            left_point_i[i] = point[i] - eps[i]
            diff_j = (grad_func(right_point_i)[j] - grad_func(left_point_i)[j])/(4*eps[i])

            hessian_matrix[i, j] = diff_i + diff_j

    return hessian_matrix

可以通过输入函数func和求取二阶导数的点x,就可以输出该点处的Hessian矩阵。

hessian(func, [0,0])

得到结果

array([[2., 0.],
       [0., 2.]], dtype=float32)

如果和numdifftools的结果对照,可以发现一样。但是numdifftools非常难用,总是报错,而且速度奇慢,如果需要循环中算,更是龟速。我们的程序只需要numpy包就能实现,非常方便好用,速度非常快。

有关有限差法(Finite Difference)求梯度和Hessian Matrix(海森矩阵)的python实现的更多相关文章

  1. python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声? - 2

    关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。

  2. ruby - 如何根据特征实现 FactoryGirl 的条件行为 - 2

    我有一个用户工厂。我希望默认情况下确认用户。但是鉴于unconfirmed特征,我不希望它们被确认。虽然我有一个基于实现细节而不是抽象的工作实现,但我想知道如何正确地做到这一点。factory:userdoafter(:create)do|user,evaluator|#unwantedimplementationdetailshereunlessFactoryGirl.factories[:user].defined_traits.map(&:name).include?(:unconfirmed)user.confirm!endendtrait:unconfirmeddoenden

  3. Python 相当于 Perl/Ruby ||= - 2

    这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Pythonconditionalassignmentoperator对于这样一个简单的问题表示歉意,但是谷歌搜索||=并不是很有帮助;)Python中是否有与Ruby和Perl中的||=语句等效的语句?例如:foo="hey"foo||="what"#assignfooifit'sundefined#fooisstill"hey"bar||="yeah"#baris"yeah"另外,类似这样的东西的通用术语是什么?条件分配是我的第一个猜测,但Wikipediapage跟我想的不太一样。

  4. java - 什么相当于 ruby​​ 的 rack 或 python 的 Java wsgi? - 2

    什么是ruby​​的rack或python的Java的wsgi?还有一个路由库。 最佳答案 来自Python标准PEP333:Bycontrast,althoughJavahasjustasmanywebapplicationframeworksavailable,Java's"servlet"APImakesitpossibleforapplicationswrittenwithanyJavawebapplicationframeworktoruninanywebserverthatsupportstheservletAPI.ht

  5. 旋转矩阵的几何意义 - 2

    点向量坐标矩阵的几何意义介绍旋转矩阵的几何含义之前,先介绍一下点向量坐标矩阵的几何含义点:在一维空间下就是一个标量,如同一条直线上,以任意某一个位置为0点,以一定的尺度间隔为1,2,3...,相反方向为-1,-2,-3...;如此就形成了一维坐标系,这时候任何一个点都可以用一个数值表示,如点p1=5,即即从原点出发沿着x轴正方向移动5个尺度;点p2=-3,负方向移动3个尺度;     在一维坐标系上过原点做垂直于一维坐标系的直线,则形成了二维坐标系,此时描述一个点需要两个数值来表示点p3=(3,2),即从原点出发沿着x轴正方向移动3个尺度,在此基础上沿着y轴正方向移动两个尺度的位置就是点p3。

  6. 华为OD机试用Python实现 -【明明的随机数】 2023Q1A - 2

    华为OD机试题本篇题目:明明的随机数题目输入描述输出描述:示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od,od薪资待遇,od机试题清单华为OD机试真题大全,用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o

  7. python - 如何读取 MIDI 文件、更改其乐器并将其写回? - 2

    我想解析一个已经存在的.mid文件,改变它的乐器,例如从“acousticgrandpiano”到“violin”,然后将它保存回去或作为另一个.mid文件。根据我在文档中看到的内容,该乐器通过program_change或patch_change指令进行了更改,但我找不到任何在已经存在的MIDI文件中执行此操作的库.他们似乎都只支持从头开始创建的MIDI文件。 最佳答案 MIDIpackage会为您完成此操作,但具体方法取决于midi文件的原始内容。一个MIDI文件由一个或多个音轨组成,每个音轨是十六个channel中任何一个上的

  8. 基于C#实现简易绘图工具【100010177】 - 2

    C#实现简易绘图工具一.引言实验目的:通过制作窗体应用程序(C#画图软件),熟悉基本的窗体设计过程以及控件设计,事件处理等,熟悉使用C#的winform窗体进行绘图的基本步骤,对于面向对象编程有更加深刻的体会.Tutorial任务设计一个具有基本功能的画图软件**·包括简单的新建文件,保存,重新绘图等功能**·实现一些基本图形的绘制,包括铅笔和基本形状等,学习橡皮工具的创建**·设计一个合理舒适的UI界面**注明:你可能需要先了解一些关于winform窗体应用程序绘图的基本知识,以及关于GDI+类和结构的知识二.实验环境Windows系统下的visualstudio2017C#窗体应用程序三.

  9. 「Python|Selenium|场景案例」如何定位iframe中的元素? - 2

    本文主要介绍在使用Selenium进行自动化测试或者任务时,对于使用了iframe的页面,如何定位iframe中的元素文章目录场景描述解决方案具体代码场景描述当我们在使用Selenium进行自动化测试的时候,可能会遇到一些界面或者窗体是使用HTML的iframe标签进行承载的。对于iframe中的标签,如果直接查找是无法找到的,会抛出没有找到元素的异常。比如近在咫尺的例子就是,CSDN的登录窗体就是使用的iframe,大家可以尝试通过F12开发者模式查看到的tag_name,class_name,id或者xpath来定位中的页面元素,会抛出NoSuchElementException异常。解决

  10. MIMO-OFDM无线通信技术及MATLAB实现(1)无线信道:传播和衰落 - 2

     MIMO技术的优缺点优点通过下面三个增益来总体概括:阵列增益。阵列增益是指由于接收机通过对接收信号的相干合并而活得的平均SNR的提高。在发射机不知道信道信息的情况下,MIMO系统可以获得的阵列增益与接收天线数成正比复用增益。在采用空间复用方案的MIMO系统中,可以获得复用增益,即信道容量成倍增加。信道容量的增加与min(Nt,Nr)成正比分集增益。在采用空间分集方案的MIMO系统中,可以获得分集增益,即可靠性性能的改善。分集增益用独立衰落支路数来描述,即分集指数。在使用了空时编码的MIMO系统中,由于接收天线或发射天线之间的间距较远,可认为它们各自的大尺度衰落是相互独立的,因此分布式MIMO

随机推荐