【LLM之Data】SKYSCRIPT-100M论文阅读笔记

devtools/2024/10/20 16:09:05/

研究背景

随着短视频和短剧的兴起,自动化的剧本生成和短剧制作在影视行业中的需求逐渐增加。传统的剧本生成过程需要大量的人工干预,限制了其在规模和效率上的扩展性。当前的大型语言模型(LLM)在剧本生成方面展现出一定潜力,但依然存在着生成内容的多样性、连贯性以及与实际影视制作需求对接不足的问题。因此,创建一个涵盖从剧本到拍摄脚本的大规模数据集成为了应对这一挑战的关键。

研究目标

本研究的目标是构建一个大规模的剧本-拍摄脚本配对数据集(SkyScript-100M),涵盖了10亿对剧本与拍摄脚本。这一数据集旨在支持短剧生成模型的开发,通过丰富的多模态信息(如场景描述、人物关系、镜头信息等)提升模型在生成短剧时的表现。本研究不仅探索了如何自动化生成高质量的短剧剧本,还提出了一种新的短剧生成范式。

相关工作

现有的多模态数据集(如MSR-VTT、HowTo100M、YouCook2等)主要通过网络爬虫获取视频数据并进行标注。这些数据集广泛应用于视频描述、视频-文本匹配等任务,但在短剧生成领域缺乏足够的覆盖和针对性。SkyScript-100M在这些现有数据集的基础上进行了优化,特别是在短剧这一特定领域中,提供了更大规模且更细致的配对数据。
而早期的剧本生成研究主要集中在基于Writing Prompts(WP)和ROCStories的开放域故事生成。然而,这些方法生成的内容常常缺乏逻辑性和连贯性。随着大型语言模型的发展,近年来的研究更多关注如何生成连贯且长篇的剧本,如Dramatron等框架。然而,短剧生成需要更多的多模态信息(如场景布局、人物关系等),这是现有方法的薄弱环节。
在这里插入图片描述

数据集的构建

多模态大语言模型预提取关键信息

为了减少人工标注的成本,研究团队首先使用多模态大语言模型(如InternVL2-Llama3-76B)对短剧视频进行预处理,提取出关键帧和场景信息。这包括人物、物体描述、镜头类型等信息,为后续数据标注提供了基础。
在这里插入图片描述
提取模板:
在这里插入图片描述
在这里,描述角色的‘Continuous Emotion’用于表达角色当前的情感状态。它包括三个维度:愉悦度(Valence,V),表示情感的积极或愉快程度,从负面到正面,用于描述幸福感的水平;激活度(Arousal,A),表示角色的激动程度,从平静或非活跃到激动或准备行动,用于描述兴奋度的水平;以及控制感(Dominance,D),表示角色在情境中的掌控程度,从顺从或无控制到主导或掌控,用于描述权威感或存在感。此外,还使用了气质和面部吸引力指标,前面提到的角色配对兼容性计算(‘shipping’)中涉及到这些指标:
在这里插入图片描述

关键信息清洗和隐私保护

在预提取信息后,进行了数据清洗与格式化,将信息转换为标准JSON格式。为确保数据的隐私安全,处理过程中对人物面部信息进行了像素化处理。此外,格式化后的数据还经过进一步的校准,以提高标注的准确性。
在这里插入图片描述
在这里插入图片描述

开放词汇检测

研究团队使用开放词汇检测模型(如Grounding-DINO)校准图像中的人物和物体位置,确保标注信息与实际内容的一致性。这一步骤帮助提升了多模态数据的质量和完整性。

主角信息后处理

使用Deepface和AlphaPose等工具进一步完善了角色的外观、情绪和动作标注,并通过2D-3D位置转换确保角色在不同场景中的一致性和连贯性。

数据校准

为确保数据的高质量,研究团队建立了一个12人的校准团队,对标注结果进行人工复核与调整,最终达到了超过90%的标注准确率,满足短剧生产的需求。

新的短剧生产范式

传统流程依赖人工调整,而新范式通过在拍摄脚本中嵌入更多关于短剧世界的信息,使生成模型能更好地保持角色、场景和情感的连贯性。
研究团队将这一新范式应用到大规模短剧生成模型SkyReels中,并在多个维度上进行了实验评估,包括主题表达、人物发展、对话质量、情感影响、节奏感、冲突解决、情节连贯性和叙事结构。实验结果显示,基于新范式生成的短剧在保持画面风格一致性、角色稳定性以及剧情连贯性上表现优异。

短剧领域的广泛影响

视频高光检测

短剧制作过程中,如何自动识别和提取剧情中的亮点(如情感高潮、剧情转折等)是一个关键问题。现有的亮点检测技术通常依赖于用户交互数据(如点赞、弹幕等),但在短剧中,这些数据往往不充分或缺乏细粒度标注。为此,本文引入了基于Plutchik情感理论的连续亮点评分模型,通过分析角色的情感维度(Valence、Arousal、Dominance),为短剧中的关键场景打分,实现了更加精确和连续的亮点检测。这一方法支持基于回归模型的亮点检测,适用于大规模短剧内容的分析与推广。
在这里插入图片描述

世界布局理解

短剧生成中的另一个挑战是对场景中世界布局的理解。传统生成模型在处理多人物、多物体的复杂场景时,容易出现角色或物体位置异常、遮挡等问题。为解决这一问题,研究团队通过2D-3D位置转换模型,推导出场景中角色和物体的3D位置,并应用多视图几何理论实现了3D-2D的映射。这一方法通过一致性约束确保了场景生成过程中物体和角色位置的合理性,显著提高了生成视频的稳定性和视觉效果。
在这里插入图片描述

隐含人物关系挖掘

传统剧本中,人物关系通常以固定的显式关系(如三元组形式)保存,但现实生活中,人物关系随着情感和情节发展会不断变化。本文提出了一种时间变化的隐含人物关系挖掘方法,利用多模态模型从图像和文本中提取隐含关系。这一方法结合角色的情感状态、位置和行为,通过时间序列分析构建更加复杂的动态人物关系网络。这种关系挖掘有助于生成更复杂和富有层次感的短剧情节,使剧本能够更好地反映现实中的复杂社交关系。
在这里插入图片描述

参考资料

  • 论文
  • 代码

http://www.ppmy.cn/devtools/102433.html

相关文章

安卓WMS层面分析窗口的位置变化-安卓framework实战开发

背景: 在悬浮窗口开发过程中,窗口往往都不是铺满整个屏幕,一般都是一个小窗口,这个时候往往会加上一个自由拖动的功能,例如如下图所示: 毫秒表就可以上下自由移动,那么大家有没有想过这个自由…

美国高防服务器租用

美国高防服务器租用是指在美国选择具有专业防御能力的服务器进行租用,这些服务器专门配置了针对DDoS攻击和其他网络威胁的防护措施。下面将具体介绍美国高防服务器租用的几个重要方面,rak小编为您整理发布美国高防服务器租用考虑因素。 硬件配置 CPU性能…

资料下载 | 消费品行业PLM解决方案

前言 随着消费者对创新需求的迅速增加,全球竞争日益加剧,以及新兴品牌数量激增,所有类型的消费品品牌和零售商都需要在确保产品利润的同时向市场提供优质产品,从而保持领先地位。为了适应最新的消费者和市场趋势,消费品…

SOA通信中间件介绍(一)

一、通信中间件 在软件定义汽车中,应用程序之间的跨进程或跨核通信是一个需要解决的问题。模块化架构为开发人员提供了便利,但也引入了对通信中间件的需求。 在没有使用通信中间件的情况下,开发人员需要自己定义数据的格式、发送方和接收方…

备战秋招60天算法挑战,Day26

题目链接: https://leetcode.cn/problems/jump-game/ 视频题解: https://www.bilibili.com/video/BV1gwYKekEVN/ LeetCode 55. 跳跃游戏 题目描述 给定一个非负整数数组 nums ,你最初位于数组的 第一个下标 。 数组中的每个元素代表你在该…

shell之usage()函数

usage()函数,用来说明脚本的作用以及脚本接收的参数,以及不同的参数不同的功能。如果我们在脚本中定义了usage()函数,那么我们可以使用-h和–help来触发usage()函数。示例如下: 示例: 在脚本test中定义如下usage()函数…

《计算机操作系统》(第4版)考研真题

1.在单处理机系统中,可并行的是( )。[2009年统考] I. 进程与进程 II. 处理机与设备 Ⅲ.处理机与通道 IV. 设备与设备 A.I 、IⅡ 和I B.I 、I 和IV C.I 、 和 IV D.IⅡ 、Ⅲ和 IV 【答案】D 【解析】单处理机即只有一个处理机(此处不包含多核的情况)…

【书生大模型实战营(暑假场)】进阶任务三 LMDeploy 量化部署实践闯关任务

进阶任务三 LMDeploy 量化部署实践闯关任务 任务文档视频 1 大模型部署基本知识 1.1 LMDeploy部署模型 定义 在软件工程中,部署通常指的是将开发完毕的软件投入使用的过程。在人工智能领域,模型部署是实现深度学习算法落地应用的关键步骤。简单来说…