关于LightGBM算法基本原理概述

卖山楂啦prss 2023-04-13 原文

1 LightGBM算法基本原理

GBDT算法的基本思想是把上一轮的训练残差作为下一轮学习器训练的输入，即每一次的输入数据都依赖于上一次训练的输出结果。因此，这种训练迭代过程就需要多次对整个数据集进行遍历，当数据集样本较多或者维数过高时会增加算法运算的时间成本，并且消耗更高的内存资源。

而XGBoost算法作为GBDT的一种改进，在训练时是基于一种预排序的思想来寻找特征中的最佳分割点，这种训练方式同样也会导致内存空间消耗极大，例如算法不仅需要保存数据的特征值，还需要保存特征排序的结果；在遍历每一个分割点的时候，都需要进行分裂增益的计算，消耗的代价大，特别是当数据量级较大时，这种方式会消耗过多时间。

为了对这些问题进行优化，2017年微软公司提出了LightGBM算法（Light Gradient Boosting Machine），该算法也是基于GBDT算法的改进，，但相较于GBDT、XGBoost算法，LightGBM算法有效地解决了处理海量数据的问题，在实际应用中取得出色的效果。LightGBM算法主要包括以下几个特点：直方图算法（寻找最佳分裂点、直方图差加速）、Leaf-wise树生长策略、GOSS、EFB、支持类别型特征、高效并行以及Cache命中率优化等。

（1）直方图Histogram算法（减少大量计算与内存占用）

XGBoost算法在进行分裂时需要预先对每一个特征的原始数据进行预排序，而直方图Histogram算法则是对特征的原始数据进行“分桶#bin”，把数据划分到不同的离散区域中，再对离散数据进行遍历，寻找最优划分点。这里针对特征值划分的每一个“桶”有两层含义，一个是每个“桶”中样本的数量；另一个是每个“桶”中样本的梯度和（一阶梯度和的平方的均值等价于均方损失）。

可以看出，通过直方图算法可以让模型的复杂度变得更低，并且特征“分桶”后仅保存了的离散值，大大降低内存的占用率。其次，这种“分桶”的方式从某种角度来看相当于对模型增加了正则化，可以避免模型出现过拟合。

直方图算法形成直方图的过程如下图所示：

值得注意的是，直方图算法是使用了bin代替原始数据，相当于增加了正则化，这也意味着有更多的细节特征会被丢弃，相似的数据可能被划分到相同的桶中，所以bin的数量选择决定了正则化的程度，bin越少惩罚越严重，过拟合的风险就越低。

另外，在LightGBM直方图算法中还包括一种直方图作差优化，即LightGBM在得到一个叶子的直方图后，能够通过直方图作差的方式用极小的代价得到其兄弟叶子的直方图，如上图所示，当得到某个叶子的直方图和父节点直方图后，另一个兄弟叶子直方图也能够很快得到，利用这种方式，LightGBM算法速度得到进一步提升。

（2）带深度限制的Leaf-wise的叶子生长策略（减少大量计算、避免过拟合）

GBDT与XGBoost模型在叶子生长策略上均采用按层level-wise分裂的方式，这种方式在分裂时会针对同一层的每一个节点，即每次迭代都要遍历整个数据集中的全部数据，这种方式虽然可以使每一层的叶子节点并行完成，并控制模型的复杂度，但也会产生许多不必要搜索或分裂，从而消耗更多的运行内存，增加计算成本。

而LightGBM算法对其进行了改进，使用了按叶子节点leaf-wise分裂的生长方式，即每次是对所有叶子中分裂增益最大的叶子节点进行分裂，其他叶子节点则不会分裂。这种分裂方式比按层分裂会带来更小的误差，并且加快算法的学习速度，但由于没有对其他叶子进行分裂，会使得分裂结果不够细化，并且在每层中只对一个叶子不断进行分裂将增大树的深度，造成模型过拟合[25]。因此，LightGBM算法在按叶子节点生长过程中会限制树的深度来避免过拟合。

（3）单边梯度采样技术 (减少样本角度)

在梯度提升算法中，每个样本都有不同梯度值，样本的梯度可以反映对模型的贡献程度，通常样本的梯度越大贡献给模型的信息增益越多，而样本的梯度越小，在模型中表现的会越好。

举个例子来说，这里的大梯度样本可以理解为“练习本中的综合性难题”，小梯度样本可以理解为“练习本中的简单题”，对于“简单题”平时做的再多再好，而“难题”却做的很少，在真正的“考试”时还是会表现不好。但并不意味着小梯度样本（“简单题”）就可以直接剔除不用参与训练，因为若直接剔除小梯度样本，数据的分布会发生改变，从而影响模型的预测效果。

因此，LightGBM算法引入了单边梯度采样技术（Gradient-based One-Side Sampling，GOSS），其基本思想就是从减少样本的角度出发，利用样本的梯度大小信息作为样本重要性的考量，保留所有梯度大的样本点（“保留所有难题”），对于梯度小的样本点（“简单题”）按比例进行随机采样，这样既学习了小梯度样本的信息，也学习了大梯度样本的信息（“平时难题都做，简单题做一部分，在面临真正的考试时才可能稳定发挥，甚至超水平发挥”），在不改变原始数据分布的同时，减小了样本数量，提升了模型的训练速度。

（4）互斥特征捆绑（减少特征角度）

高维度的数据通常是非常稀疏的，并且特征之间存在互斥性（例如通过one-hot编码后生成的几个特征不会同时为0），这种数据对模型的效果和运行速度都有一定的影响。

通过互斥特征捆绑算法（Exclusive Feature Bundling，EFB）可以解决高维度数据稀疏性问题，如下图中，设特征1、特征2以及特征3互为互斥的稀疏特征，通过EFB算法，将三个特征捆绑为一个稠密的新特征，然后用这一个新特征替代原来的三个特征，从而实现不损失信息的情况下减少特征维度，避免不必要0值的计算，提升梯度增强算法的速度。

总的来说，LightGBM是一个性能高度优化的GBDT 算法，也可以看成是针对XGBoost的优化算法，可以将LightGBM的优化用公式表达，如下式：LightGBM = XGBoost + Histogram + GOSS + EFB

2 LightGBM算法参数

LightGBM算法的参数比较复杂，可以大体上分为核心参数、学习控制参数、IO参数、目标参数、度量参数等，一般需要进行调节的是核心参数、学习控制参数和度量参数，下表给出了一些常用的重要参数的默认值和释义：

对于LightGBM算法来说，不同的参数对模型的影响不同，参数的选择要注意避免模型过拟合或欠拟合。

参考文献：
基于E-LightGBM算法的5G套餐潜在客户识别研究[D],2022

法基本原 xff0c xff xff0 算法机器学习人工智能 LightGBM

有关关于LightGBM算法基本原理概述的更多相关文章

阿里云RDS——产品系列概述 - 2
基础版云数据库RDS的产品系列包括基础版、高可用版、集群版、三节点企业版，本文介绍基础版实例的相关信息。RDS基础版实例也称为单机版实例，只有单个数据库节点，计算与存储分离，性价比超高。说明RDS基础版实例只有一个数据库节点，没有备节点作为热备份，因此当该节点意外宕机或者执行重启实例、变更配置、版本升级等任务时，会出现较长时间的不可用。如果业务对数据库的可用性要求较高，不建议使用基础版实例，可选择其他系列（如高可用版），部分基础版实例也支持升级为高可用版。基础版与高可用版的对比拓扑图如下所示。优势性能由于不提供备节点，主节点不会因为实时的数据库复制而产生额外的性能开销，因此基础版的性能相对于
ruby-on-rails - 关于 Ruby 的一般问题 - 2
我在我的rails应用程序中安装了来自github.com的acts_as_versioned插件，但有一段代码我不完全理解，我希望有人能帮我解决这个问题class_eval我知道block内的方法(或任何它是什么)被定义为类内的实例方法，但我在插件的任何地方都找不到定义为常量的CLASS_METHODS，而且我也不确定是什么here，并且有问题的代码从lib/acts_as_versioned.rb的第199行开始。如果有人愿意告诉我这里的内幕，我将不胜感激。谢谢-C 最佳答案这是一个异端。http://en.wikipedia
ruby - 我怎样才能更好地了解/了解更多关于 Ruby 的知识？ - 2
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visitthehelpcenter指导。关闭9年前。我最近开始学习Ruby，这是我的第一门编程语言。我对语法感到满意，并且我已经完成了许多只教授相同基础知识的教程。我已经写了一些小程序(包括我自己的数组排序方法，在有人告诉我谷歌“冒泡排序”之前我认为它非常聪明)，但我觉得我需要尝试更大更难的东西来理解更多关于Ruby.关于如何执行此操作的任何想法？
ruby - 关于 Ruby 中 Dir[] 和 File.join() 的混淆 - 2
我在Ruby中遇到了一个关于Dir[]和File.join()的简单程序，blobs_dir='/path/to/dir'Dir[File.join(blobs_dir,"**","*")].eachdo|file|FileUtils.rm_rf(file)ifFile.symlink?(file)我有两个困惑:首先，File.join(@blobs_dir,"**","*")中的第二个和第三个参数是什么意思？其次，Dir[]在Ruby中有什么用？我只知道它等价于Dir.glob()，但是，我对Dir.glob()确实不是很清楚。最佳答案
elasticsearch源码关于TransportSearchAction【阶段三】 - 2
1.回顾.TransportServicepublicclassTransportServiceextendsAbstractLifecycleComponentTransportService：方法：1publicfinalTextendsTransportResponse>voidsendRequest(finalTransport.Connectionconnection,finalStringaction,finalTransportRequestrequest,finalTransportRequestOptionsoptions,TransportResponseHandlerT>
关于Qt程序打包后运行库依赖的常见问题分析及解决方法 - 2
目录一.大致如下常见问题：（1）找不到程序所依赖的Qt库version`Qt_5'notfound(requiredby（2）CouldnotLoadtheQtplatformplugin"xcb"in""eventhoughitwasfound（3）打包到在不同的linux系统下，或者打包到高版本的相同系统下，运行程序时，直接提示段错误即segmentationfault，或者Illegalinstruction(coredumped)非法指令（4）ldd应用程序或者库，查看运行所依赖的库时，直接报段错误二.问题逐个分析，得出解决方法：（1）找不到程序所依赖的Qt库version`Qt_5'
ruby - 关于 Ruby/ChefSpec 编码风格的反馈 - 2
我是Ruby的新手，但过去两周我一直在对Chef测试进行大量研究。该测试使用ChefSpec和Fauxhai，但它看起来不是很“像ruby”，我希望社区能给我一些编码风格的建议。有没有更好的方法来编写这样的嵌套循环？Recipe/foo/recipes/default.rbpackage"foo"doaction:installendRecipe/foo/spec/default_spec.rbrequire'chefspec'describe'foo::default'doplatforms={"debian"=>['6.0.5'],"ubuntu"=>['12.04','10.04
ruby - 关于 ruby 类变量的困惑 - 2
假设一个使用类变量的简单ruby程序，classHolder@@var=99defHolder.var=(val)@@var=valenddefvar@@varendend@@var="toplevelvariable"a=Holder.newputsa.var我猜结果应该是99，但输出不是99。我想知道为什么。由于类变量的范围是类，我假设@@var="toplevelvariable"行不会影响类中的变量。最佳答案 @@var是Holder的类变量。而顶层的@@var不是Holder的同名类变量@@var，是你在创建类Obj
一文解决关于VLAN所有的疑惑 - 2
一文解决关于VLAN所有的疑惑VLAN基本概念为什么需要VLAN？怎么在交换机上划分VLAN，VLAN的工作原理有了子网，已经隔离了广播，还需要VLAN干啥？只进行子网划分，不进行VLAN划分VLAN划分与子网划分附加VLAN信息的方法VLAN划分交换机的端口类型（Access和Trunk）一、访问链接二、汇聚链接汇聚链接VLAN间通信为什么要进行VLAN间通信？路由器实现VLAN间通信路由器和交换机的连接方式通信细节三层交换机实现VLAN间通信加速VLAN间通信三层交换机与路由器三层交换机路由器路由器和交换机配合构建LAN的实例使用VLAN设计局域网的特点VLAN增加网络的灵活性不使用VLA
ruby - 关于 CoffeeScript 变量范围的困惑 - 2
我正在尝试了解CoffeeScript变量的范围。根据文档:ThisbehavioriseffectivelyidenticaltoRuby'sscopeforlocalvariables.但是，我发现它的工作方式不同。在CoffeeScript中a=1changeValue=->a=3changeValue()console.log"a:#{a}"#Thisdisplays3在ruby中a=1deffa=3endputsa#Thisdisplays1有人能解释一下吗？最佳答案 Ruby的局部变量(以[a-z_]开头)arerea