【AI视频】复刻抖音爆款AI数字人作品初体验

devtools/2024/9/24 4:48:30/

在这里插入图片描述

博客主页: [小ᶻZ࿆]
本文专栏: AI视频 | AI数字人

文章目录

  • 💯前言
  • 💯抖音上的爆火AI数字人视频
  • 💯注册HeyGen账号
  • 💯复刻抖音爆款AI数字人
  • 💯最终生成效果
  • 💯小结


对比原视频效果

左为原视频,右为本文生成

本文生成输入视频的完整效果:(注意:背景音乐是后期加上去的)

本文数字人视频完整生成结果


在这里插入图片描述


💯前言

  • 随着人工智能技术的迅速发展,数字人不再是科幻电影中的虚构产物,而是逐渐走进了我们的日常生活。曾经只有大型企业和专业团队才能运用的这项技术,如今已经触手可及,大众也可以轻松使用。无论是内容创作者、企业宣传,还是个人娱乐,数字人都提供了一种全新的表达方式,让每个人都能够通过人工智能的力量,打造出独具特色的作品。
    HeyGen在这里插入图片描述

💯抖音上的爆火AI数字人视频

  • 数字人在抖音上是一种非常新颖且有吸引力的表现形式。由于其独特的视觉效果和流畅的交互体验,AI数字人迅速成为了短视频平台上的热门趋势。不论是用于知识分享、品牌宣传,还是娱乐内容,这种技术都为创作者带来了前所未有的可能性。它不仅突破了传统真人视频的限制,还能够以高效、低成本的方式实现个性化的内容表达,吸引了大量用户的关注和互动。
    在这里插入图片描述

  • 本文将以这个点赞量12.6w的爆款数字人视频为例,手把手教你如何从零开始,初步体验AI数字人技术的入门步骤。这篇文章适合新手,内容简单易懂,不需要你具备太多技术背景。本文将带你了解如何选择基础的AI工具、简单地调整内容呈现方式,并进行基本的后期处理。通过这篇入门级教程,你将轻松掌握AI数字人制作的基础概念,开启你的数字创作之旅!
    在这里插入图片描述


💯注册HeyGen账号

  1. 进入HeyGen官网点击Get started。
    在这里插入图片描述

  2. 点击注册,如果有Google邮箱的话可以直接用Google在这里插入图片描述

  3. 填写邮箱
    在这里插入图片描述

  4. 登录邮箱拿到验证码填入
    在这里插入图片描述

  5. 设置密码,长度必须为 8 到 35 个字符,包括大写、小写字母、数字和特殊字符。
    在这里插入图片描述

  6. 注册成功后会跳转到HeyGen主界面,注意:一个账号一个月可以免费生成三次视频。
    在这里插入图片描述


💯复刻抖音爆款AI数字人

  1. 在HeyGen主界面中,您可以轻松地开始您的视频制作。进入界面后,点击左侧菜单中的“Create video”按钮,即“创建视频”,如图所示。
    在这里插入图片描述

  2. 在选择视频布局时,您可以根据需求选择横屏或竖屏模式。为了更好地展示数字人,我们建议选择竖屏模式。在创建视频的界面中,点击“Use portrait”按钮,即“使用肖像”选项
    在这里插入图片描述

  3. 在这一步骤中,您需要选择一个合适的头像来作为视频中的数字人。进入头像选择界面后,点击“Studio Avatar”(工作室头像)选项
    在这里插入图片描述

  4. 在选择头像的界面中,往下滚动页面,找到与爆款视频相同的数字人形象,如图中红框所示。在这里插入图片描述

Looking for a wife? Must find a woman with a big temper. No temper is like a glass of water. Quench thirst, but tasteless. A woman with a temper is not the same. Her bark is worse than her bite. She is particularly kind. She worries about her family at home and her temper comes quickly and goes quickly. She's like a strong drink you can't forget. If you do, cherish it. Do you understand?
  1. 在这一步中,需要为您的数字人输入与目标视频相同的文案内容。点击左侧菜单中的“Script 脚本”选项,在文本框中输入视频中使用的文案内容,如上所示。
    在这里插入图片描述

  2. 在这一步中,为了让数字人能够更好地传达视频内容,您可以选择合适的语音选项。点击“Script 脚本”界面中的语音选择区域,如图所示,可以从多个语音选项中进行挑选。不同的语音有着不同的语调、情感和节奏,选择一个与视频内容最契合的语音类型,可以让数字人的表现更加自然和有吸引力。
    在这里插入图片描述

  • 这里推荐用ctrl+G搜索Molly-Newscaster更方便快捷
    在这里插入图片描述
  1. 在调整语音设置时,您可以根据需要修改数字人的语速,使其更符合视频的整体节奏和氛围。在“Script 脚本”界面中,点击语音设置旁边的选项按钮,进入“Voice settings 语音设置”菜单,如图所示。
  • 差不多是设置1.5倍速
    在这里插入图片描述
  1. text模块可在视频里面加文本和标识。
    在这里插入图片描述

  2. 为了确保数字人的画面与语音完美同步,您需要将时间轴上的数字人画面时长调整为与说话时间一致。
    在这里插入图片描述

  3. 在完成所有设置并确认无误后,最后一步就是提交生成您的AI数字人视频。在编辑页面的右上角,点击“Submit 提交”按钮,如图所示。系统将开始处理您所设定的脚本、语音和画面,生成最终的视频。
    在这里插入图片描述
    在这里插入图片描述

  4. 在视频生成完成后,您可以在HeyGen平台的主界面中看到所有已生成的视频,下载到本地。在这里插入图片描述


💯最终生成效果

本文生成的数字人视频最终效果:(注意:背景音乐是后期加上去的)

本文数字人视频完整生成结果


💯小结

  • 在这里插入图片描述
    虽然这篇文章仅是入门级别的教程,但它展示了数字人技术的无限潜力。我们可以看到,抖音上的爆款数字人视频不仅仅是娱乐内容的呈现,更是新媒体创作的一个缩影。这些技术使得创作者能够以更具创意和个性化的方式表达自我,同时也大大降低了制作门槛。

  • 在创作过程中,我们意识到,无论是内容创作者还是企业推广,掌握AI数字人技术都是一个值得尝试的方向。它不仅能够提升内容的吸引力,还能为用户带来独特的体验。我希望这篇文章能为那些和我一样对数字人技术感兴趣的朋友提供帮助,让大家在数字创作的世界中找到属于自己的风格。

  • 继续探索、不断尝试,我们都可以成为数字时代的创作者!希望你在阅读后也能感受到AI数字人带来的乐趣和可能性,期待看到更多精彩的数字人作品!


import tensorflow as tf;from tensorflow.keras import layers;import numpy as np;import matplotlib.pyplot as plt;np.random.seed(42);tf.random.set_seed(42);latent_dim=100;image_size=64;batch_size=64;epochs=10000;def build_generator():model=tf.keras.Sequential();model.add(layers.Dense(8*8*256,use_bias=False,input_shape=(latent_dim,)));model.add(layers.BatchNormalization());model.add(layers.LeakyReLU());model.add(layers.Reshape((8,8,256)));model.add(layers.Conv2DTranspose(128,(5,5),strides=(2,2),padding='same',use_bias=False));model.add(layers.BatchNormalization());model.add(layers.LeakyReLU());model.add(layers.Conv2DTranspose(64,(5,5),strides=(2,2),padding='same',use_bias=False));model.add(layers.BatchNormalization());model.add(layers.LeakyReLU());model.add(layers.Conv2DTranspose(3,(5,5),strides=(2,2),padding='same',use_bias=False,activation='tanh'));return model;def build_discriminator():model=tf.keras.Sequential();model.add(layers.Conv2D(64,(5,5),strides=(2,2),padding='same',input_shape=[image_size,image_size,3]));model.add(layers.LeakyReLU());model.add(layers.Dropout(0.3));model.add(layers.Conv2D(128,(5,5),strides=(2,2),padding='same'));model.add(layers.LeakyReLU());model.add(layers.Dropout(0.3));model.add(layers.Conv2D(256,(5,5),strides=(2,2),padding='same'));model.add(layers.LeakyReLU());model.add(layers.Dropout(0.3));model.add(layers.Flatten());model.add(layers.Dense(1));return model;def discriminator_loss(real_output,fake_output):real_loss=tf.keras.losses.BinaryCrossentropy(from_logits=True)(tf.ones_like(real_output),real_output);fake_loss=tf.keras.losses.BinaryCrossentropy(from_logits=True)(tf.zeros_like(fake_output),fake_output);return real_loss+fake_loss;def generator_loss(fake_output):return tf.keras.losses.BinaryCrossentropy(from_logits=True)(tf.ones_like(fake_output),fake_output);generator_optimizer=tf.keras.optimizers.Adam(1e-4);discriminator_optimizer=tf.keras.optimizers.Adam(1e-4);generator=build_generator();discriminator=build_discriminator();@tf.function;def train_step(images,generator,discriminator,batch_size,latent_dim):noise=tf.random.normal([batch_size,latent_dim]);with tf.GradientTape()as gen_tape,tf.GradientTape()as disc_tape:generated_images=generator(noise,training=True);real_output=discriminator(images,training=True);fake_output=discriminator(generated_images,training=True);gen_loss=generator_loss(fake_output);disc_loss=discriminator_loss(real_output,fake_output);gradients_of_generator=gen_tape.gradient(gen_loss,generator.trainable_variables);gradients_of_discriminator=disc_tape.gradient(disc_loss,discriminator.trainable_variables);generator_optimizer.apply_gradients(zip(gradients_of_generator,generator.trainable_variables));discriminator_optimizer.apply_gradients(zip(gradients_of_discriminator,discriminator.trainable_variables));return gen_loss,disc_loss;(train_images,train_labels),(_,_)=tf.keras.datasets.cifar10.load_data();train_images=train_images.reshape(train_images.shape[0],image_size,image_size,3).astype('float32');train_images=(train_images-127.5)/127.5;train_dataset=tf.data.Dataset.from_tensor_slices(train_images).shuffle(60000).batch(batch_size);def train(generator,discriminator,dataset,epochs,latent_dim,batch_size):for epoch in range(epochs):for image_batch in dataset:gen_loss,disc_loss=train_step(image_batch,generator,discriminator,batch_size,latent_dim);if epoch%100==0:print(f"Epoch {epoch}, Gen Loss: {gen_loss}, Disc Loss: {disc_loss}");generate_and_save_images(generator,epoch,latent_dim);def generate_and_save_images(model,epoch,latent_dim):noise=tf.random.normal([16,latent_dim]);generated_images=model(noise,training=False);fig=plt.figure(figsize=(4,4));for i in range(generated_images.shape[0]):plt.subplot(4,4,i+1);plt.imshow((generated_images[i]*127.5+127.5).astype(np.uint8));plt.axis('off');plt.savefig(f'generated_images_epoch_{epoch}.png');plt.show();train(generator,discriminator,train_dataset,epochs,latent_dim,batch_size)

在这里插入图片描述



http://www.ppmy.cn/devtools/116330.html

相关文章

[PICO VR眼镜]眼动追踪串流Unity开发与使用方法,眼动追踪打包报错问题解决(Eye Tracking/手势跟踪)

前言 最近在做一个工作需要用到PICO4 Enterprise VR头盔里的眼动追踪功能,但是遇到了如下问题: 在Unity里面没法串流调试眼动追踪功能,根本获取不到Device,只能将整个场景build成APK,安装到头盔里,才能在…

2023年06月中国电子学会青少年软件编程(Python)等级考试试卷(二级)答案 + 解析

青少年软件编程(Python)等级考试试卷(二级) 一、单选题(共25题,共50分) 1. 运行以下程序,如果通过键盘先后输入的数是1和3,输出的结果是?( ) a=int(input()) b=int(input()) if a < b: a=b print(a) A. 3 1 B. 1 3 C. 1 D. 3 正确答案:D 答案解析&am…

双击热备 Electron网页客户端

安装流程&#xff1a; 1.下载node.js安装包进行安装 2.点击Next; 3.勾选&#xff0c;点击Next; 4.选择安装目录 5.选择Online 模式 6.下一步执行安装 。 7.运行cmd,执行命令 path 和 node --version&#xff0c;查看配置路径和版本 8.Goland安装插件node.js 9.配置运行…

专属文生图助手——SD3+ComfyUI文生图部署步骤

SD3ComfyUI文生图部署步骤 我们使用DAMODEL来实现文生图的部署。 根据提供的操作步骤与代码段落&#xff0c;本文旨在介绍如何下载并部署 Stable Diffusion 3 模型&#xff0c;并通过 ComfyUI 架构实现基于 Web 界面的图像生成应用。本文将剖析各个步骤&#xff0c;并详细解释…

Springboot请求响应练习

Springboot对于不同的请求进行响应 package com.wzb.ResponseExercise20240919;import com.wzb.ResponseExercise20240919.Result.Result; import com.wzb.ResponseExercise20240919.pojo.User; import jakarta.servlet.http.HttpServletRequest; import org.springframework.…

文件系统设计 - 开发文件系统 Store (上篇)

本节开始&#xff0c;我们将从最核心基础的文件系统进行设计实现&#xff0c;构建文件系统Store 一个基础的响应式Store类设计文件系统类接口小结 一个基础的响应式Store类 从Vue3 开始&#xff0c;Vue响应式借助Proxy重构后&#xff0c;整个响应式系统的应用变得非常的灵活&a…

Java集合(Map篇)

一.Map a.使用Map i.键值&#xff08;key-value&#xff09;映射表的数据结构&#xff0c;能高效通过key快速查找value&#xff08;元素&#xff09;。 ii.Map是一个接口&#xff0c;最常用的实现类是HashMap。 iii.重复放入k-v不会有问题&#xff0c;但是一个…

Opencv图像预处理(三)

blur&#xff08;均值滤波&#xff09; 一种常用的图像平滑处理方法&#xff0c;通过将像素的领域内像素值取平均来减少图像中的噪声&#xff0c;从而达到图像平滑的效果&#xff0c;图像会更模糊。 using System; using System.Collections.Generic; using System.Linq; usi…