照片相似性搜索引擎Embed-Photos；赋予大型语言模型（LLMs）视频和音频理解能力；OOTDiffusion的基础上可控制的服装驱动图像合成

server/2024/9/23 9:00:16/

✨ 1: Magic Clothing

Magic Clothing是一个以可控制的服装驱动图像合成为核心的技术项目，建立在OOTDiffusion的基础上

Magic Clothing是一个以可控制的服装驱动图像合成为核心的技术项目，建立在OOTDiffusion的基础上。通过使用Magic Clothing，可以在不同的场景下达到根据服装设计或者需求快速生成图像的目的。

地址：https://github.com/ShineChen1024/MagicClothing

✨ 2: Video-LLaMA

赋予大型语言模型（LLMs）视频和音频理解能力

在这里插入图片描述

Video-LLaMA是一个先进的项目，旨在赋予大型语言模型（LLMs）视频和音频理解能力。这意味着Video-LLaMA不仅可以处理和理解文本信息，还能理解和分析视频和音频内容。这一功能的实现，使得Video-LLaMA在多种情况下都非常有用，特别是在需要理解和生成对视频内容的描述、执行基于视频的指令或与视频内容互动的场景中。

地址：https://github.com/DAMO-NLP-SG/Video-LLaMA

✨ 3: Embed-Photos

照片相似性搜索引擎

在这里插入图片描述

Embed-Photos 是一个照片相似性搜索引擎。这个项目使用CLIP（对比语言-图像预训练）模型来寻找基于文本描述的视觉相似图片。这意味着你可以使用文字描述来查找看起来相似的图片，利用最新的AI技术快速和高效地搜索图片。

地址：https://github.com/harperreed/photo-similarity-search

✨ 4: Tiger

Tiger是一个以社区为驱动的项目，它旨在为LLM (大型语言模型) Agent Revolution开发一个可重复使用且集成的工具生态系统。Tiger可以看作是为你的AI代理提供的“神经连接”，使其能够直接通过“思考”来控制计算机做出各种操作。这包括写代码、使用搜索引擎、管理日历、控制鼠标和键盘、以音频输出与你对话等等。换句话说，你的AI代理想做什么，Tiger就帮它实现什么。

地址：https://github.com/Upsonic/Tiger