jjzjj

modelscope

全部标签

离线生成双语字幕,一键生成中英双语字幕,基于AI大模型,ModelScope

制作双语字幕的方案网上有很多,林林总总,不一而足。制作双语字幕的原理也极其简单,无非就是人声背景音分离、语音转文字、文字翻译,最后就是字幕文件的合并,但美中不足之处这些环节中需要接口api的参与,比如翻译字幕,那么有没有一种彻底离线的解决方案?让普通人也能一键制作双语字幕,成就一个人的字幕组?人声背景音分离如果视频不存在嘈杂的背景音,那么大多数情况下是不需要做人声和背景音分离的,但考虑到背景音可能会影响语音转文字的准确率,那么人声和背景音分离还是非常必要的,关于人声抽离,我们首先想到的解决方案当然是spleeter,但其实,阿里通义实验室开源的大模型完全不逊色于spleeter,它就是FRCR

【ModelScope】部署一个属于自己的AI服务

前言技术栈是Fastapi。FastAPI是一个现代、快速(基于Starlette和Pydantic)、易于使用的Pythonweb框架,主要用于构建RESTfulAPI。以下是FastAPI的一些优势:性能卓越:FastAPI基于Starlette框架,并使用Pydantic进行数据验证,因此具有出色的性能。它通过异步编程利用Python3.7+中的async/await特性,使其能够处理大量并发请求。自动文档生成:FastAPI自动生成交互式API文档(SwaggerUI和ReDoc),让开发者能够轻松地查看和测试API端点,同时提供即时的反馈和文档。强类型注解:FastAPI使用Pyth

不需要本地部署大模型,modelscope-agent加qwen-max免费搭建自己的定制机器人

最近阿里开源了通用大模型qwen-72b,正在为怎么本地化部署发愁,转眼看到提供了qwen-max相关接口的免费试用(据说就是基于qwen-72b大模型),这就来体验一番。1.前期准备开通阿里云灵积平台,并创建api-key2.环境搭建python:3.10+;pydantic2.0以上,老版本pydantic会报一个tool_schema.model_dump_json的函数错误,可以通过相关命令升级:css复制代码pipinstall--upgradepydanticpipinstall--upgradefastapi3.项目部署拉取项目代码,并安装相关依赖bash复制代码gitclone

ModelScope初体验

使用环境:windows11前置条件:已安装anaconda参考文档:环境安装step1:新建一个conda环境,命名为modelscopecondacreate-nmodelscopepython=3.8condaactivatemodelscopestep2:安装pytorch(根据自己的显卡情况进行选择StartLocally|PyTorch)condainstallpytorchtorchvisiontorchaudiopytorch-cuda=11.8-cpytorch-cnvidia小tip:如果安装pytorch很慢,可以修改.condarc文件换源。文件位于users文件夹下。

ModelScope初体验

使用环境:windows11前置条件:已安装anaconda参考文档:环境安装step1:新建一个conda环境,命名为modelscopecondacreate-nmodelscopepython=3.8condaactivatemodelscopestep2:安装pytorch(根据自己的显卡情况进行选择StartLocally|PyTorch)condainstallpytorchtorchvisiontorchaudiopytorch-cuda=11.8-cpytorch-cnvidia小tip:如果安装pytorch很慢,可以修改.condarc文件换源。文件位于users文件夹下。

关于 ModelScope 的视频 “AI 换脸” 优化方案

前言    前面一文,初步完成了一下“AI换脸”视频处理程序。完成了视频拆帧,拆帧图片人脸融合,已经音频提取和最后的人脸融合图片的整合(也就是将图片和音频组成视频)。但是在人脸融合部分由于是单线程,处理起来非常耗时,所以这里就对那部分进行优化。优化前情况    "敏捷开发,快速迭代",好像这种思维从多年前就埋在了脑子里(借口)。所以前文算是个初版demo,并且在环境中运行只是用cmd来完成,没有使用专门Python的IDE。也很有可能是这个原因,在执行代码里,只要是关于获取当前目录的地方都不起效果,这是一点另一点就是上面重点要解决的,提升人脸替换的处理速度,这里要用到多线程。编码1.人脸替换部

有了ModelScope-Agent,小白也能打造专属智能体,附保姆级教程

ModelScope-Agent提出了一个通用的、可定制的Agent框架,方便用户打造属于自己的智能体。它基于开源的大语言模型(LLMs)作为核心,提供了一个用户友好的系统库,具有以下特点:可定制且功能全面的框架:提供可定制的引擎设计,涵盖了数据收集、工具检索、工具注册、存储管理、定制模型训练和实际应用等功能,可用于快速实现实际场景中的应用。开源LLMs作为核心组件:支持在ModelScope社区的多个开源LLMs上进行模型训练,并开源了配套的中英文工具指令数据集MSAgent-Bench,用于增强开源大模型作为Agent中枢的规划调度能力。多样化且全面的API,支持API检索:以统一的方式实

零基础手把手训练实践-图像分类模型-基于达摩院modelscope

零基础手把手训练实践:图像分类模型-基于达摩院modelscope导读:图像分类模型是最简单的,也是最基础的计算机视觉任务,应用非常广泛。本文将手把手介绍零基础训练图像分类模型的实践过程。文章主要介绍如何在标注好的数据集基础上,进行微调,使模型能够在新的数据上重新适配一个新的分类任务。阅读完本文,你将了解如何使用ViT模型在14种花卉数据集上进行分类的微调训练,进而了解大部分分类任务的微调过程。首先,打开ModelScope的官网(https://www.modelscope.cn/home),进入模型库。模型库页面可以看到有很多不同的模型,我们选择:计算机视觉 - 视觉分类 – 通用分类。模

如何用 ModelScope 实现 “AI 换脸” 视频

前言    当下,视频内容火爆,带有争议性或反差大的换脸视频总能吸引人视线。虽然AI换脸在市面上已经流行了许久,相关制作工具或移动应用也是数不胜数。但是多数制作工具多数情况下不是会员就是收费,而且替换模板有限。以下在实战的角度,用阿里ModelScope的图像人脸融合实现一下AI视频换脸。流程    提供一段视频和一张替换的人脸图片,用opencv-python将视频根据帧率拆成图片,用FFmpeg提取视频里的音频为单独文件(mp3)。遍历目录下的每一帧的图片,通过ModelScope的人脸融合模型,传入新的人脸和帧率图片,得到替换过人脸的帧图片。最后再通过opencv-python将替换的人

视频处理系列︱利用达摩院ModelScope进行视频人物分割+背景切换(一)

做了一个简单的实验,利用modelscope的人像抠图模型对视频流进行抠像并更换背景。文章目录1视频人像抠图(Videohumanmatting)2更换背景1视频人像抠图(Videohumanmatting)地址链接:视频人像抠图模型-通用领域该款模型是window下少数可以使用的,就自己试着玩一下。视频人像抠图(Videohumanmatting)是计算机视觉的经典任务,输入一个视频(图像序列),得到对应视频中人像的alpha图,其中alpha与分割mask不同,mask将视频分为前景与背景,取值只有0和1,而alpha的取值范围是0到1之间,返回数值代表透明度。VHM模型处理1080P视频
12