深度学习系列64：数字人wav2lip详解

深度学习系列64：数字人wav2lip详解

embedded/2024/11/14 6:25:00/

1. 整体流程

第一步，加载视频/图片和音频/tts。用melspectrogram将wav文件拆分成mel_chunks。
第二步，调用face_detect模型，给出人脸检测结果（可以改造成从文件中读取），包装成4个数组batch：img_batch(人脸)，mel_batch(语音)，frame_batch(原图)，coords_batch(坐标)
第三步，加载模型，进行计算。这个模型目前看下来就是简单的resnet，没有transfomer。另外mask也不是用分割模型，而是直接将图片下半部分全部作为mask😄，然后将mask图片拼接到原图片的色彩通道上作为输入。
第四步：预测出来的人脸拼接到原图上，输出位视频。

2. 优缺点

优点：极其简单，一个人脸检测模型+一个基于CNN的lipsync模型，速度很快。
缺点：嘴唇经常是歪的，而且有变形；牙齿不断在闪烁。经过图像增强后，我们取出截图如下：
在这里插入图片描述

http://www.ppmy.cn/embedded/10715.html

相关文章

146.LRU缓存

146.LRU缓存

题目： 请你设计并实现一个满足 LRU (最近最少使用) 缓存约束的数据结构。实现 LRUCache 类： LRUCache(int capacity) 以正整数作为容量 capacity 初始化 LRU 缓存int get(int key) 如果关键字 key 存在于缓存中，则返回关键字的值&…

阅读更多...

基于函数计算FC3.0 部署AI数字绘画stable-diffusion自定义模型

基于函数计算FC3.0 部署AI数字绘画stable-diffusion自定义模型

基于函数计算FC3.0 部署AI数字绘画stable-diffusion自定义模型部署AI数字绘画stable-diffusion曲线救国授权github账号部署ffmpeg-app-v3总结在讲述了函数计算FC3.0和函数计算FC2.0的操作界面UI改版以及在函数管理、函数执行引擎、自定义域名、函数授权及弹性伸缩规则方面进…

阅读更多...

JS-37-jQuery06-ajax

JS-37-jQuery06-ajax

用JavaScript写AJAX前面已经介绍过了，主要问题就是不同浏览器需要写不同代码，并且状态和错误处理写起来很麻烦。用JavaScript写AJAX 用jQuery的相关对象来处理AJAX，不但不需要考虑浏览器问题，代码也能大大简化。一、ajax()函数…

阅读更多...

vscode vue template模板中 tab键无法快速补全

vscode vue template模板中 tab键无法快速补全

之前记得一直可以的突然不知道咋的就不行了… 解决办法: 菜单栏 - 文件 - 首选项 - 设置- emmet:tab ✔就好了

阅读更多...

一个文生视频MoneyPrinterTurbo项目解析

一个文生视频MoneyPrinterTurbo项目解析

最近抖音剪映发布了图文生成视频功能，同时百家号也有这个功能，这个可以看做是一个开源的实现，一起看看它的原理吧~ 一句话提示词大模型生成文案百家号生成视频效果 MoneyPrinterTurbo生成视频效果天空为什么是蓝色的？ 天空…

阅读更多...

GPT-Engineer：一个基于OpenAI的GPT-4模型的开源项目，旨在自动化软件工程任务，如代码生成、需求澄清和规范生成

GPT-Engineer：一个基于OpenAI的GPT-4模型的开源项目，旨在自动化软件工程任务，如代码生成、需求澄清和规范生成

GPT-Engineer是一个基于OpenAI的GPT-4模型的开源项目，旨在自动化软件工程任务，如代码生成、需求澄清和规范生成等38。它通过与GPT-4模型以对话方式交互，根据提供的提示或指令自动生成代码库或完成特定的软件开发任务256。这个工具特别适合于快速原型设计和开发复杂应用程序，…

阅读更多...

web server apache tomcat11-10-Class Loader

web server apache tomcat11-10-Class Loader

前言整理这个官方翻译的系列，原因是网上大部分的 tomcat 版本比较旧，此版本为 v11 最新的版本。开源项目从零手写实现 tomcat minicat 别称【嗅虎】心有猛虎，轻嗅蔷薇。系列文章 web server apache tomcat11-01-官方文档入门介绍 web…

阅读更多...

【再探】设计模式-设计原则

【再探】设计模式-设计原则

设计原则是在编写程序时引导程序员遵循的一些原则和准则。这些原则旨在提高代码的可读性、可维护性、可扩展性和可重用性。可读性：理解和沟通的难易程度。可维护性：修改和调整的难易程度。可扩展性：应对未来变化的能力。可重用性&#xff1…

阅读更多...

最新文章