彩蛋岛 销冠大模型案例

news/2024/9/19 11:00:48/ 标签: 人工智能

彩蛋岛 销冠大模型案例

任务:

https://kkgithub.com/InternLM/Tutorial/tree/camp3/docs/EasterEgg/StreamerSales

视频

https://www.bilibili.com/video/BV1f1421b7Du/?vd_source=4ffecd6d839338c9390829e56a43ca8d

项目git地址:

https://kkgithub.com/PeterH0323/Streamer-Sales

底层技术:

🚀 KV cache + Turbomind 推理加速
📚 RAG 检索增强生成
🎙️ ASR 语音转文字输入
🔊 TTS 文字转语音输出
🦸 数字人解说视频生成  SD 来生成视频:comfyUI 
🌐 Agent 使用网络查询实时快递等信息图片扣字; 图片进行长边裁剪;图片检测识别xtuner 微调训练

在线体验:
https://openxlab.org.cn/apps/detail/HinGwenWong/Streamer-Sales

笔记

功能:主播文案一键生成+商品解说

输入:给定商品特点

目标:激发用户购买意愿

架构:
在这里插入图片描述

数据集设计

主播视角;性格,说话方式
用户视角:可能关心问题
产品视角: 特性,亮点

训练

xtuner zero2 训练:

xtuner train finetune_configs/internlm2_chat_7b/internlm2_chat_7b_qlora_custom_data.py --deepspeed deepspeed_zero2

数字人-文生图流程

成熟的赛道是直接使用真人录制好的视频,然后 TTS 之后直接生成口型贴到人脸上,这种方法可控性强,而且获得成本低,已经大量推广了。

comfyui

生成人像图
DW Pose 生成骨骼图
ControlNet 控制人物姿态
AnimateDiff 生成视频
插帧提升帧率
提升分辨率

ComfyUI 环境搭建

https://kkgithub.com/InternLM/Tutorial/tree/camp3/docs/EasterEgg/StreamerSales#2-%E7%8E%AF%E5%A2%83%E6%90%AD%E5%BB%BA

文生图流程

首先加入 sd checkpoint ,和 vae 模型,vae 可选,模型可选

DW Pose 生成骨骼图 & ControlNet 控制人物姿态

AnimateDiff 生成视频

TTS 文字转语音

conda activate streamer-sales
uvicorn server.tts.tts_server:app --host 0.0.0.0 --port 8001 # tts

ASR 语音识别生成文字

conda activate streamer-sales
uvicorn server.asr.asr_server:app --host 0.0.0.0 --port 8003 # asr

异步

uvicorn

感觉

技术点比较全面,适合参考。


http://www.ppmy.cn/news/1527616.html

相关文章

VideoPlayer插件的用法

文章目录 1. 概念介绍2. 使用方法2.1 实现步骤2.2 具体细节 3. 示例代码4. 内容总结 我们在上一章回中介绍了"如何获取文件类型"相关的内容,本章回中将介绍如何播放视频.闲话休提,让我们一起Talk Flutter吧。 1. 概念介绍 播放视频是我们常用…

[深度学习]Pytorch框架

1 深度学习简介 应用领域:语音交互、文本处理、计算机视觉、深度学习、人机交互、知识图谱、分析处理、问题求解 2 发展历史 1956年人工智能元年2016年国内开始关注深度学习2017年出现Transformer框架2018年Bert和GPT出现2022年,chatGPT出现&#xff0…

C++11新特性学习

C11 1. C11新特性 自动类型推导(auto)智能指针(提供更安全和更高效的内存管理)移动语义和右值引用 (move语义 &&,使得对象移动而非拷贝,在处理大量数据时提高程序性能)Lambda 表达式(…

idea连接docker 自动化部署

进入Linux服务器 vim /lib/systemd/system/docker.service将 ExecStart/usr/bin/dockerd -H fd:// --containerd/run/containerd/containerd.sock 替换为 ExecStart/usr/bin/dockerd -H tcp://0.0.0.0:2375 -H unix://var/run/docker.sock新建文件 Dockerfile配置Dockerfile文…

CTF比赛中的Git相关题目解题思路

在CTF比赛中,涉及Git相关的题目通常会考察参赛者对Git仓库的了解,尤其是如何利用公开或不完整的Git仓库来恢复源代码或获取敏感信息。本文将结合一些常见的工具和步骤,详细介绍如何解决这类题目。 背景 Git是一种分布式版本控制系统&#…

中国农业银行——开源软件一体化管理平台

【金融机构开源技术应用创新成果案例 第十二期】 中国农业银行——开源软件一体化管理平台 申报单位:中国农业银行股份有限公司 技术领域:开源软件管理 技术产品:Git、Gitea、Spring-boot、Mybatis 业务场景:开源软件准入、使用、安全治理、目录发布、内外部开源等 应…

Go第三方框架--gin框架(三)

5. net/http框架源码-- 多路复用的实现 这块核心功能对应 1.3 的圆圈2,所属代码如下图: run代码涉及的操作不是gin框架的核心,还记的我说过gin是在net/http的基础上操作的吗,我们来看下gin和net/http包的关联关系。 gin: 主要建…

Java重修笔记 第五十六天 坦克大战(六)多线程基础 - 线程同步、死锁

多线程同步机制 多线程编程中,一些敏感数据可能会被多个线程同时访问造成数据混乱(例如票数),使用线程同步机制,通过锁对象(对象实例或类实例)的方式来保证该段代码在任意时刻,最多…

ram和rom的种类迭代和介绍

RAM(随机存取存储器)在计算机和电子设备中扮演着至关重要的角色。随着技术的发展,RAM有多个迭代和种类,每个种类在速度、功耗和使用场景上有所不同。以下是RAM的详细迭代种类及介绍。 1. SRAM(Static RAM,…

linux-软件包管理-包管理工具(Debian 系)

Linux 软件包管理概述 在Linux系统中,软件包管理是系统维护的核心部分之一。通过软件包管理器,用户可以方便地安装、更新、删除和查询系统中的软件包。每个Linux发行版通常都有自己专属的包管理工具,这些工具基于不同的包格式。例如&#xf…

pycharm连接远程linux服务器上的docker进行深度学习训练

实习过程中由于GPU都在服务器上,编辑代码很麻烦。并且服务器上配置了docker的环境,所以用pycharm连接远程服务器的docker进行深度学习,这样在本地调用远程服务器的GPU和环境,更方便一点,将这个过程记录下来&#xff0c…

CentOS中使用DockerCompose方式部署带postgis的postgresql(附kartoza/docker-postgis镜像下载)

场景 CentOS中使用Docker部署带postgis的postgresql: CentOS中使用Docker部署带postgis的postgresql_centos postgis插件在容器中如何安装-CSDN博客 上面使用Docker搜索和拉取kartoza/postgis时并没有任何限制。 当下如果不能科学上网时,大部分镜像源…

力扣150题——多维动态规划

交错字符串 题目 97. 交错字符串 - 力扣(LeetCode) 思路 用dp[i][j]代表s1的前i个字母和s2的前s2个字母能否交错组成s3的前ij-1的子串 状态转移方程即为 如果 s1[i-1] s3[i j - 1],并且 dp[i-1][j] 为 true,则 dp[i][j] 也…

vmware中的ubuntu系统扩容分区

1.虚拟机关机 右击虚拟机/设置,进入虚拟机设置 3.启动虚拟机,进入命令行 4.fdisk -l查看要扩展的分区名 5.resize要扩容的分区 su root parted /dev/sda resizepart 3 100% fdisk -l resize2fs /dev/sda3 df -T完成 6.其他 进入磁盘管理 fdisk /d…

oracle 如何查询表被锁

在Oracle数据库中,查询表是否被锁可以通过多种方式实现。以下是一些常用的方法来查询Oracle数据库中的表锁情况: 1. 使用V$LOCKED_OBJECT视图 V$LOCKED_OBJECT是Oracle提供的动态性能视图,用于显示当前被锁定的对象信息。通过查询该视图&am…

XML_Tomcat_HTTP

第四章 XML_Tomcat10_HTTP 一 XML XML是EXtensible Markup Language的缩写,翻译过来就是可扩展标记语言。所以很明显,XML和HTML一样都是标记语言,也就是说它们的基本语法都是标签。 可扩展 三个字表面上的意思是XML允许自定义格式。但这不代…

使用 Istio 缓解电信 5G IoT 微服务 Pod 架构的安全挑战

在 Kubernetes 集群中部署微服务在 5G 电信中至关重要。但是,它也带来了重大的安全风险。虽然防火墙规则和代理提供了初始安全性,但 Kubernetes 中的默认通信机制(例如未加密的网络流量和缺乏访问控制)本质上是不安全的。这种不安…

《拿下奇怪的前端报错》:nvm不可用报错`GLIBC_2.27‘‘GLIBCXX_3.4.20‘not Found?+ 使用docker构建多个前端项目实践

有些前端的小伙伴可能会好奇,nvm是什么?这里接简单介绍下,它是一个Nodejs版本管理工具。为什么需要它呢?当然是需要多个Nodejs版本的时候,那什么时候需要多个Nodejs版本?那肯定是在有点年头的公司了&#x…

使用git命令

git add . git commit -m "commit message" 拉取 git pull origin <branch-name> 推送 git push origin <branch-name> 创建新分支 git branch <new-branch-name> # 切换到新分支 git checkout <new-branch-name> 合并分支 git mer…

区块链先驱孙宇晨:引领价值传播,激发行业创新活力

​孙宇晨&#xff0c;这位被誉为“区块链布道师”的年轻企业家&#xff0c;以其独特的愿景和行动力在区块链行业中脱颖而出。作为波场TRON的创始人&#xff0c;他不仅是区块链技术的倡导者&#xff0c;更是一位不懈推动行业发展的领导者。他通过自身的努力和影响力&#xff0c;…