jjzjj

单节点安装部署Cube Studio

ReaLearn 2023-06-08 原文

简介

cube是tme开源的一站式云原生机器学习平台,目前主要包含

  1. 特征平台,支持在/离线特征;数据源管理,支持结构数据和媒体标注数据管理;
  2. 在线的vscode/jupyter代码开发;在线镜像调试,支持免dockerfile,增量构建;
  3. 任务流编排,在线拖拉拽;开放的模板市场,支持tf/pytorch/mxnet/spark/ray/horovod/kaldi/volcano等分布式计算/训练任务;task的单节点debug,分布式任务的批量优先级调度,聚合日志;任务运行资源监控,报警;定时调度,支持补录,忽略,重试,依赖,并发限制,定时任务算力的智能修正;
  4. nni,katib,ray的超参搜索;
  5. tf/pytorch/onnx模型的推理服务,serverless流量管控,triton gpu推理加速,依据gpu利用率/qps等指标的hpa能力,虚拟化gpu,虚拟显存等服务化能力。
  6. 多集群多项目组资源统筹,联邦调度;

基础环境说明

  • docker >= 19.03
  • kubernetes = 1.18
  • kubectl >=1.18
  • cfs/ceph 挂载到每台机器的 /data/k8s/
  • 单机 磁盘>=500G 单机磁盘容量要求不大,仅做镜像容器的的存储
  • 控制端机器 cpu>=16 mem>=32G
  • 任务端机器,根据需要自行配置

安装步骤

基础准备

  •  安装docker,如果没有docker,需要先安装docker,可以参考如下链接,注意版本19.03以上。

 https://zhuanlan.zhihu.com/p/54147784​​​​​​zzhttps://zhuanlan.zhihu.com/p/54147784

  • 下载master分支最新源码:

https://github.com/tencentmusic/cube-studiohttps://github.com/tencentmusic/cube-studio

  • 上传源码zip包至安装节点
  • 解压zip包,可以将解压后的cube-studio-master重命名为cube-studio
  • 创建如下目录

mkdir -p /data/k8s/kubeflow/minio 
mkdir -p /data/k8s/kubeflow/global
mkdir -p /data/k8s/kubeflow/pipeline/workspace  
mkdir -p /data/k8s/kubeflow/pipeline/archives

安装rancher server

reset docker

cd /xxx/cube-studio/install/kubernetes/rancher                 #   xxx指的是您的安装目录

sh reset_docker.sh

docker ps

如下图所示:

 说明reset成功

拉取所需镜像

python3 all_image.py > pull.sh

sh pull.sh 1>pull.log 2>/error_pull.log &

执行ps -ef | grep pull.sh 查看是否拉取完成

或者,发现没有此脚本的进程了,也说明拉取完成了。 

查看是否有error_pull.log日志文件生成,如果没有,则说明,所有镜像都成功拉取。

执行安装命令

sudo docker run -d --privileged --restart=unless-stopped -p 443:443 --privileged --name=myrancher -e AUDIT_LEVEL=3 rancher/rancher:v2.5.2

rancher server的web页面配置

进入rancher server的https://xx.xx.xx.xx/ 的web界面

填写用户名,密码admin/admin

勾选“我同意”,取消勾选 “允许收集匿名统计信息”,点“继续”,点“保存URL”,点“关闭”

点“添加集群”,点“自定义”,填写集群名称,例如“dev”,选择kubernetes版本1.18

点“高级集群选项”,选“Nginx Ingress”为禁用,修改NodePort范围为10-32767,docker根目录修改为/data/docker

点“编辑YAML”

在如下处:

添加如下内容:

    kubelet:
      extra_args:
        image-gc-high-threshold: 90
        image-gc-low-threshold: 85
      extra_binds:
        - '/data:/data'

一定要注意缩进!

点击“保存”,点击“完成”,点击集群名称如“dev”,点击“主机”,点击“编辑集群”

下拉至最下面,”主机选项“下面的选项全选,点击“复制按钮”

在此命令后面追加 --node-name 你的ip,然后执行这句。

点“保存”,此时网页会自动刷新

再次进入网页,点击“主机”,等待集群正常

变成如下所示可以进行下一步

安装Cube Studio

配置

点击“主机名”如dev,选择dev,点击“Kubeconfig”文件,点击左下方“复制到剪切板”

进入/xxx/cube-studio/install/kubernetes 目录

在此目录下创建config文件,并将复制的内容粘贴进去

执行

sh start.sh 你的ip 1>start.log 2>/error_start.log &

同样,执行ps -ef | grep start.sh 查看是否拉取完成,看是否有error_start.log日志文件,看有没有异常。

如果没有异常,则可以进行下一步

回到web页面,点击“关闭”

升级

dev,dev,点“升级”

点击“编辑YAML”按钮

在如下位置

 添加如下内容

extra_args:     
  service-account-issuer: kubernetes.default.svc
  service-account-signing-key-file: /etc/kubernetes/ssl/kube-service-account-token-key.pem

 同样的,注意缩进!

 点击“保存”

移动命名空间

dev,dev,defalut,命名空间,全选,点击“移动”,选Default,点击“移动”

 注意,移动的是上图14个命名空间。

再次点击“dev”,"default",可以看到如下内容:

此时,可能会有错误,可以等待自动恢复

如果很长时间无法自动恢复,则可以检查日志:

可以结合查看yaml配置是否正常,来排查安装是否有问题

如果这些服务都正常,则可以访问http://xx.xx.xx.xx/myapp/home,进入Cube Studio平台

可以看到如下页面

尝试基础功能

 

能够创建一个文件 ,到此,说明平台已经搭建完成,且功能可使用。

友情链接,也可以参考如下视频进行部署:cube-studio 开源一站式云原生机器学习平台 单机部署视频_哔哩哔哩_bilibilicube是tme开源的一站式云原生机器学习平台,目前主要包含1、特征平台,支持在/离线特征;数据源管理,支持结构数据和媒体标注数据管理;2、在线的vscode/jupyter代码开发;在线镜像调试,支持免dockerfile,增量构建;3、任务流编排,在线拖拉拽;开放的模板市场,支持tf/pytorch/mxnet/spark/ray/horovod/kaldi/volcano等分布式计算/训练任https://www.bilibili.com/video/BV18r4y147oj/

rancher高可用

export RANCHER_CONTAINER_NAME=myrancher
export RANCHER_CONTAINER_TAG=v2.5.2

docker stop $RANCHER_CONTAINER_NAME
docker create --volumes-from $RANCHER_CONTAINER_NAME --name rancher-data rancher/rancher:$RANCHER_CONTAINER_TAG
# 先备份一遍
docker run --volumes-from rancher-data --privileged -v $PWD:/backup alpine tar zcvf /backup/rancher-data-backup.tar.gz /var/lib/rancher
docker run --name myrancher-new -d --privileged --volumes-from rancher-data --restart=unless-stopped -p 443:443 rancher/rancher:$RANCHER_CONTAINER_TAG

有关单节点安装部署Cube Studio的更多相关文章

  1. ruby - 在 64 位 Snow Leopard 上使用 rvm、postgres 9.0、ruby 1.9.2-p136 安装 pg gem 时出现问题 - 2

    我想为Heroku构建一个Rails3应用程序。他们使用Postgres作为他们的数据库,所以我通过MacPorts安装了postgres9.0。现在我需要一个postgresgem并且共识是出于性能原因你想要pggem。但是我对我得到的错误感到非常困惑当我尝试在rvm下通过geminstall安装pg时。我已经非常明确地指定了所有postgres目录的位置可以找到但仍然无法完成安装:$envARCHFLAGS='-archx86_64'geminstallpg--\--with-pg-config=/opt/local/var/db/postgresql90/defaultdb/po

  2. ruby - 完全离线安装RVM - 2

    我打算为ruby​​脚本创建一个安装程序,但我希望能够确保机器安装了RVM。有没有一种方法可以完全离线安装RVM并且不引人注目(通过不引人注目,就像创建一个可以做所有事情的脚本而不是要求用户向他们的bash_profile或bashrc添加一些东西)我不是要脚本本身,只是一个关于如何走这条路的快速指针(如果可能的话)。我们还研究了这个很有帮助的问题:RVM-isthereawayforsimpleofflineinstall?但有点误导,因为答案只向我们展示了如何离线在RVM中安装ruby。我们需要能够离线安装RVM本身,并查看脚本https://raw.github.com/wayn

  3. ruby-on-rails - rails 目前在重启后没有安装 - 2

    我有一个奇怪的问题:我在rvm上安装了ruby​​onrails。一切正常,我可以创建项目。但是在我输入“railsnew”时重新启动后,我有“程序'rails'当前未安装。”。SystemUbuntu12.04ruby-v"1.9.3p194"gemlistactionmailer(3.2.5)actionpack(3.2.5)activemodel(3.2.5)activerecord(3.2.5)activeresource(3.2.5)activesupport(3.2.5)arel(3.0.2)builder(3.0.0)bundler(1.1.4)coffee-rails(

  4. ruby - 如何为 emacs 安装 ruby​​-mode - 2

    我刚刚为fedora安装了emacs。我想用emacs编写ruby。为ruby​​提供代码提示、代码完成类型功能所需的工具、扩展是什么? 最佳答案 ruby-mode已经包含在Emacs23之后的版本中。不过,它也可以通过ELPA获得。您可能感兴趣的其他一些事情是集成RVM、feature-mode(Cucumber)、rspec-mode、ruby-electric、inf-ruby、rinari(用于Rails)等。这是我当前用于Ruby开发的Emacs配置:https://github.com/citizen428/emacs

  5. ruby-on-rails - 无法在centos上安装therubyracer(V8和GCC出错) - 2

    我正在尝试在我的centos服务器上安装therubyracer,但遇到了麻烦。$geminstalltherubyracerBuildingnativeextensions.Thiscouldtakeawhile...ERROR:Errorinstallingtherubyracer:ERROR:Failedtobuildgemnativeextension./usr/local/rvm/rubies/ruby-1.9.3-p125/bin/rubyextconf.rbcheckingformain()in-lpthread...yescheckingforv8.h...no***e

  6. ruby - 通过 RVM (OSX Mountain Lion) 安装 Ruby 2.0.0-p247 时遇到问题 - 2

    我的最终目标是安装当前版本的RubyonRails。我在OSXMountainLion上运行。到目前为止,这是我的过程:已安装的RVM$\curl-Lhttps://get.rvm.io|bash-sstable检查已知(我假设已批准)安装$rvmlistknown我看到当前的稳定版本可用[ruby-]2.0.0[-p247]输入命令安装$rvminstall2.0.0-p247注意:我也试过这些安装命令$rvminstallruby-2.0.0-p247$rvminstallruby=2.0.0-p247我很快就无处可去了。结果:$rvminstall2.0.0-p247Search

  7. ruby - 如何在 Lion 上安装 Xcode 4.6,需要用 RVM 升级 ruby - 2

    我实际上是在尝试使用RVM在我的OSX10.7.5上更新ruby,并在输入以下命令后:rvminstallruby我得到了以下回复:Searchingforbinaryrubies,thismighttakesometime.Checkingrequirementsforosx.Installingrequirementsforosx.Updatingsystem.......Errorrunning'requirements_osx_brew_update_systemruby-2.0.0-p247',pleaseread/Users/username/.rvm/log/138121

  8. ruby - Fast-stemmer 安装问题 - 2

    由于fast-stemmer的问题,我很难安装我想要的任何ruby​​gem。我把我得到的错误放在下面。Buildingnativeextensions.Thiscouldtakeawhile...ERROR:Errorinstallingfast-stemmer:ERROR:Failedtobuildgemnativeextension./System/Library/Frameworks/Ruby.framework/Versions/2.0/usr/bin/rubyextconf.rbcreatingMakefilemake"DESTDIR="cleanmake"DESTDIR=

  9. ruby-on-rails - 每次我尝试部署时,我都会得到 - (gcloud.preview.app.deploy) 错误响应 : [4] DEADLINE_EXCEEDED - 2

    我是Google云的新手,我正在尝试对其进行首次部署。我的第一个部署是RubyonRails项目。我基本上是在关注thisguideinthegoogleclouddocumentation.唯一的区别是我使用的是我自己的项目,而不是他们提供的“helloworld”项目。这是我的app.yaml文件runtime:customvm:trueentrypoint:bundleexecrackup-p8080-Eproductionconfig.ruresources:cpu:0.5memory_gb:1.3disk_size_gb:10当我转到我的项目目录并运行gcloudprevie

  10. ruby - 安装 Ruby 时遇到问题(无法下载资源 "readline--patch") - 2

    当我尝试安装Ruby时遇到此错误。我试过查看this和this但无济于事➜~brewinstallrubyWarning:YouareusingOSX10.12.Wedonotprovidesupportforthispre-releaseversion.Youmayencounterbuildfailuresorotherbreakages.Pleasecreatepull-requestsinsteadoffilingissues.==>Installingdependenciesforruby:readline,libyaml,makedepend==>Installingrub

随机推荐