喜马拉雅基于DeepRec构建AI平台实践

阿里云大数据AI技术 2023-03-28 原文

喜马拉雅作者：李超、陶云、许晨昱、胡文俊、张争光、张玉静、赵云鹏、张猛

快速落地大模型训练和推理能力，带来业务指标和后续算法优化空间的显著提升。

业务介绍

喜马拉雅app的主要推荐场景有：每日必听、今日热点、私人FM、猜你喜欢、VIP信息流、发现页推荐等。

喜马拉雅AI云，是面向公司人员提供的一套从数据、特征、模型到服务的全流程一站式算法工具平台。

其特点在于提供了数据、画像、特征、模型、组件、应用等多个资源管理能力，通过可视化建模界面以及算法组件化能力，支持用户通过拖拽链接方式生成完整的数据->特征->样本->模型->服务的完整工作流程。平台还支持丰富的特征、模型参数化定制能力，使得用户不用频繁修改代码仅在UI界面填写参数即完成调参、任务多场景支持等，极大的降低了用户的使用成本，提升了公司整体算法开发效率。

平台上一个常见的深度模型训练DAG如下图所示：

目前平台支持了喜马拉雅多个app的推荐、广告、搜索推荐等主流业务场景，以及画像产出、数据分析、BI数据生成等多个定制化开发场景。

合作背景

随着公司算法能力的迅速提升以及搜广推业务的不断增长，平台推荐技术栈快速从机器学习过渡到深度学习，并对样本量级、特征维度、模型复杂度有着不断增长的需求。平台主要的深度技术框架是通过spark实现数据处理和parquet形式保存，通过k8s实现gpu资源调度，使用tensorflow实现模型训练。在具体实现过程中，有2类主要的痛点：

高维稀疏特征支持

hash冲突问题： 一般对高维ID的简化操作就是hash。我们测试发现特定特征在hash到千万级别空间后冲突率能达到20%以上，要降低到5%以内需要扩充到五倍以上空间，失去了压缩的意义。我们自研实现了一种多重hash方案，通过将高维id映射到3个万级空间，相同场景下冲突率降低到0.2‰，参数量降低95%。但上线后发现也有缺陷，即对长序列id特征列表，会扩充到原有3倍长度，显著降低了模型的推理性能。
特征入场/退场/变长： 这些均是对高维ID特征的基础要求。通过合理的配置这些参数，可以实现高维稀疏大模型部署模型大小的缩减以及模型指标的稳定。使得支持十亿特征维度以上模型的训练和部署成为可能。

模型快速迭代

模型分钟级别更新： 当前我司主要业务的模型更新一般是天级别。在特定需要高频响应的业务中，需要提升到小时级或者分钟级。其间隔主要受限于数据回流、数据处理、模型训练，以及模型上传的总耗时。如果仅是将上述天级的流程加快(kafka数据流)，最理想情况也就能做到小时级，无法做到更快迭代。同时，由于每次部署均是一个全量模型，模型增大后，线上服务加载模型时的不可用时间也会显著增长。

综上所述，为解决上述问题，以及为未来发展预留一定的技术可扩展空间，我们计划采用业内主流开源技术+落地实施方案。在考察阿里的DeepRec、腾讯的TFRA/DynamicEmbedding，以及Nivida的HugeCTR框架后，我们决定采用阿里提供的开源DeepRec。

DeepRec功能落地

高维稀疏特征

在搜索、推荐和广告领域，特征往往具有高维稀疏的特点，原生Tensorflow对稀疏参数支持是通过在图中创建一个固定shape的variable，然后把稀疏特征通过hash+mod的方式mapping到Variable中来实现的。这会带来4个突出的问题：第一是稀疏特征的冲突，比如不同的稀疏ID mapping到同一个行内，第二是设置shape 太大会导致内存的空洞，第三是static 的shape，当用户一旦确定该shape在后续训练都不可以修改，在在线学习的场景中稀疏特征量的变化也是合理的场景，第四点是低效的IO，在稀疏模型导出checkpoint的时候会全量的导出。

在DeepRec中，Embedding Variable使用动态的类似HashMap数据结构存储稀疏参数，保证了稀疏特征数目是可以弹性伸缩，在保证特征不冲突的情况下，也一定程度的节约了内存资源。围绕这个功能，Embedding Variable针对业务场景，支持了特征的准入(特征入场)，特征的淘汰(特征退场)，以及利用不同介质混合存储Embedding Variable提高特征规模，降低存储成本等功能。

高维稀疏特征ID支持

高维id特征如用户id、商品id等一直是深度模型特征的主要处理对象。模型引入这类特征、以及其延伸的交叉特征后，特征维度可以轻易超出biillon级别。常见的hash解决方案往往又会陷入冲突率和模型参数的平衡问题中。通过使用DeepRec的EmbeddingVariable，以额外"EV"的op管理模型训练中每个特征id的更新使用情况，并辅以针对每个特征的参数设置，可以有效的平衡高维稀疏id以及最终模型的参数量大小。同时，是否开启"EV"也可以针对每个特征进行配置，关闭后就是原生的tensorflow实现。用户可以针对是否高维id，自行判断开启或关闭该选项，使用非常灵活。以下是我们基于DeepRec高维稀疏特征能力，在我们AI云平台落地后的用户使用界面图示：

特征入场、退场

我们在实践中选择了基于Counter的特征准入以及基于global step的特征淘汰功能，经过严格测试，功能符合预期。在实际的使用过程中，我们的经验是：全量特征可以默认关闭"EV"选项，只针对高维稀疏特征开启；可以先开启准入选项，设置一个比较大的值，训练模型。然后基于EV分析工具查看具体情况做灵活调整。最终模型开始长周期滚动更新时，按照需求开启退场选项。其中需要注意的是，入场和退场的次数设置，前者是这个id的更新频次、后者是总训练的step数(batchsize)，有较大区别。还有就是验证集的数据也会参与EV记录。

未入场特征

DeepRec对待未入场和入场后的特征，其初始值逻辑是一样的。即在训练启动时，初始化一个较小的embedding-table矩阵(类似标准的embedding初始化)，上述id进入后，不做初始化而在该矩阵中查取(随机)。未入场前，不参与梯度更新，入场后参与更新。线上serving时，统一返回默认值(0)。DeepRec支持了未入场特征与入场特征初始化值可灵活配置的功能。我们在实际使用中，对于上述的未入场的特征，均统一设置初始化默认值为0，对齐了训练和推理，也便于后续进行mask操作。对于入场后的特征沿用之前的参数初始化方式。针对上述入场、退场，以及未入场的特征的处理逻辑，我们做了以下示意图帮助用户理解：

EV分析

EV分析是模型训练调参中的一个重要工具。DeepRec提供了分析函数，我们将此做成一个功能组件供用户使用。以下是我们模型增量更新时的一个完整流程图，模型EV分析组件可以在每次训练结束后进行，提供特征名称、id值、向量、更新频次、最近更新step等具体细节，帮助用户分析模型和样本情况，从而进行相关参数配置，或者调整上游样本数据：

特征多级存储

DeepRec的特征多级存储功能，主要解决训练时模型参数量过大，pod内存无法承载的情况，这个正是我们目前碰到的主要问题。用户可以配置保存embedding参数要使用的存储(HBM，DRAM以及SSD)，之后多级存储会基于一定的cache策略自动地选择将高频被访问到的特征保存到小容量的高速存储中，其他特征则放置到大容量的低速存储。结合推荐场景中特征访问的倾斜性(20%的特征访问数占总访问数的80%以上)，可以在训练效率不受显著影响的情况下有效地减少模型的内存使用量，降低模型训练的成本。目前我们正在和阿里云合作落地该功能。

实时训练

DeepRec的另一个主要功能是提供了增量模型的导出功能。即仅将增量训练的变化的参数导出成ckpt，线上仅新加载这部分文件。这样能将模型更新所需的文件大小从上百G降低到几KB大小。使用这个功能，可以解决模型部署上线的模型传输和模型加载耗时，使得线上分钟级别的模型更新成为可能。我们重新优化了流批一体的训练流程，完成了基于增量模型的全流程验证。并在业务场景实现了10分钟级别的模型迭代测试。以下是我们基于DeepRec流批一体模型训练的流程示意图：

线上推理

processor： DeepRec官网已经提供了对应的libserving_processor.so文件，也可以按照用户使用的版本自行编译，支持模型自动识别、增量更新、SessionGroup等功能。满足业务需要。
PAI-EAS： 阿里云还提供了PAI-EAS在线推理服务。用户只需要将模型文件部署到oss上，可以直接使用其在线推理功能。该服务还提供了常见的压测、扩缩容、线上debug、性能监控以及日志等功能，可以满足一站式部署需要。我们对此进行了测试，在专线开通的前提下，rt等性能指标符合上线要求。

总体收益

模型训练： 整体流程改造完毕之后，我们在单worker训练中GPU平均利用率提升到40%以上(视具体模型)，训练环节整体耗时减少50%以上。
模型上线收益： 我们目前在一个主流推荐场景中完成了全量上线。在对齐特征和样本情况下，在主要指标ctr、ptr等就有2%_{3%+的正向收益，rt、超时率等推理指标基本持平。在引入简单的高维id及交叉特征后，其正向收益也有2%}3%+。其他主流业务场景模型也在逐步切换中。

未来规划

我们对后续的一些功能也在进行探索，以便更好的支撑业务需求：

SessionGroup： DeepRec提供的线推理能力。在模型达到一定大小后，线上推理需要相应的内存。以实体物理机进行超大内存划分，往往会造成对应的CPU资源无法得到重复利用。该功能即在同一pod上，模型内存共享的情况下，提供并发推理能力。使得单节点的资源利用率，以及支撑QPS上限得到显著提升。我们已经开展对该功能的测试。
模型压缩和量化： 目前模型训练过程以及模型导出的文件中，均包含相应的EV信息。在高维id场景中会占用很大一部分空间。在线上推理阶段可以舍弃该部分，加快模型传输及加载，以及降低内存使用。同时，基于DeepRec生成的模型量化裁剪，我们也在研究中。
多模型推理、GPU推理等： 基于DeepRec提供的CUDA Multi-Stream和CUDA Graph的能力，可以极大的提升Inference场景下GPU的使用效率，基于GPU进行模型的推理可以进一步提升对复杂模型的推理的效率以及降低推理的成本。

感谢

感谢DeepRec社区在合作共建阶段提供的技术支持，其技术精湛、服务热情、响应快速。帮助我们快速落地大模型训练和推理能力，带来了业务指标和后续算法优化空间的显著提升。特此感谢！

拉雅 DeepRec 稀疏高维 strong 深度学习稀疏学习推理深度学习人工智能

有关喜马拉雅基于DeepRec构建AI平台实践的更多相关文章

ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2
很好奇，就使用rubyonrails自动化单元测试而言，你们正在做什么？您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您？git中的预提交Hook？只是手动调用？我完全理解测试，但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的，并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您？最佳答案不确定您到底想听什么，但是有几个级别的自动代码库控制:在处理某项功能时，您可以使用类似autotest的内容获得关于哪些有效，哪些无效的即时反馈。要确保您的提
ruby - 在 Ruby 中构建长字符串的简洁方法 - 2
在编写Ruby(客户端脚本)时，我看到了三种构建更长字符串的方法，包括行尾，所有这些对我来说“闻起来”有点难看。有没有更干净、更好的方法？变量递增。ifrender_quote?quote="NowthatthereistheTec-9,acrappyspraygunfromSouthMiami."quote+="ThisgunisadvertisedasthemostpopularguninAmericancrime.Doyoubelievethatshit?"quote+="Itactuallysaysthatinthelittlebookthatcomeswithit:themo
叮咚买菜基于 Apache Doris 统一 OLAP 引擎的应用实践 - 2
导读：随着叮咚买菜业务的发展，不同的业务场景对数据分析提出了不同的需求，他们希望引入一款实时OLAP数据库，构建一个灵活的多维实时查询和分析的平台，统一数据的接入和查询方案，解决各业务线对数据高效实时查询和精细化运营的需求。经过调研选型，最终引入ApacheDoris作为最终的OLAP分析引擎，Doris作为核心的OLAP引擎支持复杂地分析操作、提供多维的数据视图，在叮咚买菜数十个业务场景中广泛应用。作者｜叮咚买菜资深数据工程师韩青叮咚买菜创立于2017年5月，是一家专注美好食物的创业公司。叮咚买菜专注吃的事业，为满足更多人“想吃什么”而努力，通过美好食材的供应、美好滋味的开发以及美食品牌的孵
基于C#实现简易绘图工具【100010177】 - 2
C#实现简易绘图工具一.引言实验目的:通过制作窗体应用程序(C#画图软件),熟悉基本的窗体设计过程以及控件设计,事件处理等,熟悉使用C#的winform窗体进行绘图的基本步骤,对于面向对象编程有更加深刻的体会.Tutorial任务设计一个具有基本功能的画图软件**·包括简单的新建文件,保存,重新绘图等功能**·实现一些基本图形的绘制,包括铅笔和基本形状等,学习橡皮工具的创建**·设计一个合理舒适的UI界面**注明:你可能需要先了解一些关于winform窗体应用程序绘图的基本知识,以及关于GDI+类和结构的知识二.实验环境Windows系统下的visualstudio2017C#窗体应用程序三.
kvm虚拟机安装centos7基于ubuntu20.04系统 - 2
需求：要创建虚拟机，就需要给他提供一个虚拟的磁盘，我们就在/opt目录下创建一个10G大小的raw格式的虚拟磁盘CentOS-7-x86_64.raw命令格式：qemu-imgcreate-f磁盘格式磁盘名称磁盘大小qemu-imgcreate-f磁盘格式-o?1.创建磁盘qemu-imgcreate-fraw/opt/CentOS-7-x86_64.raw10G执行效果#ls/opt/CentOS-7-x86_64.raw2.安装虚拟机使用virt-install命令，基于我们提供的系统镜像和虚拟磁盘来创建一个虚拟机，另外在创建虚拟机之前，提前打开vnc客户端，在创建虚拟机的时候，通过vnc
ruby - 使用 rbenv 和 ruby-build 构建 ruby 失败，出现 undefined symbol : SSLv2_method - 2
我正在尝试在配备ARMv7处理器的SynologyDS215j上安装ruby2.2.4或2.3.0。我用了optware-ng安装gcc、make、openssl、openssl-dev和zlib。我根据README中的说明安装了rbenv(版本1.0.0-19-g29b4da7)和ruby-build插件。.这些是随optware-ng安装的软件包及其版本binutils-2.25.1-1gcc-5.3.0-6gconv-modules-2.21-3glibc-opt-2.21-4libc-dev-2.21-1libgmp-6.0.0a-1libmpc-1.0.2-1libm
ruby-on-rails - Rails 中同一个类的多个关联的最佳实践？ - 2
我认为我的问题最好用一个例子来描述。假设我有一个名为“Thing”的简单模型，它有一些简单数据类型的属性。像...Thing-foo:string-goo:string-bar:int这并不难。数据库表将包含具有这三个属性的三列，我可以使用@thing.foo或@thing.bar之类的东西访问它们。但我要解决的问题是当“foo”或“goo”不再包含在简单数据类型中时会发生什么？假设foo和goo代表相同类型的对象。也就是说，它们都是“Whazit”的实例，只是数据不同。所以现在事情可能看起来像这样......Thing-bar:int但是现在有一个新的模型叫做“Whazit”，看起来
ruby-on-rails - 向 Rails 3 添加 Ruby 扩展方法的最佳实践？ - 2
我有一个要在我的Rails3项目中使用的数组扩展方法。它应该住在哪里？我有一个应用程序/类，我最初把它放在(array_extensions.rb)中，在我的config/application.rb中我加载路径:config.autoload_paths+=%W(#{Rails.root}/应用程序/类)。但是，当我转到railsconsole时，未加载扩展。是否有一个预定义的位置可以放置我的Rails3扩展方法？或者，一种预先定义的方式来添加它们？我知道Rails有自己的数组扩展方法。我应该将我的添加到active_support/core_ext/array/conversion
ruby-on-rails - (Ruby,Rails) 基于角色的身份验证和用户管理...？ - 2
我正在寻找用于Rails的优质管理插件。似乎大多数现有的插件/gem(例如“restful_authentication”、“acts_as_authenticated”)都围绕着self注册等展开。但是，我正在寻找一种功能齐全的基于管理/管理角色的解决方案——但不是简单地附加到另一个非基于角色的解决方案。如果我找不到，我想我会自己动手......只是不想重新发明轮子。最佳答案 RyanBates最近做了两个关于授权的railscast(注意身份验证和授权之间的区别；身份验证检查用户是否如她所说的那样，授权检查用户是否有权访问资源
ruby-on-rails - 如何构建复杂的 Rails 系统 - 2
关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题editingthispost.关闭8年前。Improvethisquestion我们有以下(以及更多)系统，我们将数据从一个应用推送/拉取到另一个:托管CRM(InsideSales.com)Asterisk电话系统(内部)横幅广告系统(openx，我们托管)潜在客户生成系统(自行开发)电子商务商店(spree，我们托管)工作板(本土)一些工作网站抓取+入站工作提要电子邮件传送系统(如Mailchimp，自主开发)事件管理系统(如eventbrite，自主开发)仪表板系统(大量图表和