Rhymes AI发布首款开源多模态AI模型Aria 性能超越GPT-4o mini等多家知名AI模型

server/2024/10/20 17:13:02/

最近,日本东京的初创公司 Rhymes AI 推出了他们的首款人工智能模型 ——Aria。该公司自称,Aria 是全球首个开源的多模态混合专家(MoE)模型。这个模型不仅具有处理多种输入模态的能力,还声称在能力上与一些知名的商业模型不相上下,甚至更胜一筹。

Aria 的设计理念是希望能够在文本、代码、图像和视频等多种输入形式上,提供卓越的理解和处理能力。与传统的 Transformer 模型不同,MoE 模型通过多个专业的专家来替代其前馈层。当处理每个输入令牌时,一个路由模块会选择一部分专家进行激活,从而提高计算效率,减少每个令牌的激活参数数量。

在这里插入图片描述
Aria 的解码器每个文本令牌可以激活35亿个参数,整个模型拥有249亿个参数。为了处理视觉输入,Aria 还设计了一款轻量级的视觉编码器,拥有4.38亿个参数,可以将各种长度、大小和纵横比的视觉输入转换为视觉令牌。此外,Aria 的多模态上下文窗口达到64,000个令牌,意味着它能处理更长的输入数据。

在这里插入图片描述
在训练方面,Rhymes AI 共分为四个阶段,先用文本数据进行预训练,再引入多模态数据,接着是长序列的训练,最后进行微调。

在此过程中,Aria 总共使用了6.4万亿个文本令牌和4000亿个多模态令牌进行预训练,数据来自 Common Crawl 和 LAION 等知名数据集,并进行了部分合成增强。

根据相关基准测试,Aria 在多个多模态、语言和编程任务中表现优于 Pixtral-12B 和 Llama-3.2-11B 等模型,并且因激活参数较少,推理成本也较低。

此外,Aria 在处理带有字幕的视频或多页文档时表现良好,其理解长视频和文档的能力超过了 GPT-4o mini 和 Gemini1.5Flash 等其他开源模型。

在这里插入图片描述
为便于使用,Rhymes AI 将 Aria 的源代码以 Apache2.0许可证形式发布在 GitHub 上,支持学术和商业使用。同时,他们还提供了一个训练框架,可以在单个 GPU 上对 Aria 进行多种数据源和格式的微调。值得一提的是,Rhymes AI 与 AMD 达成了合作,以优化模型性能,展示了一款名为 BeaGo 的搜索应用,该应用能够在 AMD 硬件上运行,为用户提供更全面的文本和图像 AI 搜索结果。

Quick Start

pip install transformers==4.45.0 accelerate==0.34.1 sentencepiece==0.2.0 torchvision requests torch Pillow
pip install flash-attn --no-build-isolation# For better performance, you can install grouped-gemm, which may take 3-5 minutes to install
pip install grouped_gemm==0.1.6
import requests
import torch
from PIL import Image
from transformers import AutoModelForCausalLM, AutoProcessormodel_id_or_path = "rhymes-ai/Aria"model = AutoModelForCausalLM.from_pretrained(model_id_or_path, device_map="auto", torch_dtype=torch.bfloat16, trust_remote_code=True)processor = AutoProcessor.from_pretrained(model_id_or_path, trust_remote_code=True)image_path = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/cat.png"image = Image.open(requests.get(image_path, stream=True).raw)messages = [{"role": "user","content": [{"text": None, "type": "image"},{"text": "what is the image?", "type": "text"},],}
]text = processor.apply_chat_template(messages, add_generation_prompt=True)
inputs = processor(text=text, images=image, return_tensors="pt")
inputs["pixel_values"] = inputs["pixel_values"].to(model.dtype)
inputs = {k: v.to(model.device) for k, v in inputs.items()}with torch.inference_mode(), torch.cuda.amp.autocast(dtype=torch.bfloat16):output = model.generate(**inputs,max_new_tokens=500,stop_strings=["<|im_end|>"],tokenizer=processor.tokenizer,do_sample=True,temperature=0.9,)output_ids = output[0][inputs["input_ids"].shape[1]:]result = processor.decode(output_ids, skip_special_tokens=True)print(result)

http://www.ppmy.cn/server/133397.html

相关文章

基于springboot+thymeleaf+springsecurity搭建一套web小案例

一、前言 本案例中的源代码已上传到资源库&#xff0c;可自行下载&#xff0c;传送阵 https://download.csdn.net/download/qq_36260963/89906196 Spring Boot是为了简化Spring应用的创建、运行、调试、部署等而出现的&#xff0c;使用它可以做到专注于Spring应用的开发&#x…

iptables 命令详解

iptables 是 Linux 中用于设置、维护和检查 IP 数据包过滤规则的命令。它是一个强大的工具&#xff0c;广泛用于网络防火墙、安全性和网络地址转换 (NAT) 等。 以下是 iptables 命令的主要选项及其详细说明。 1. 基本语法 iptables [选项] [链名称] [规则匹配条件] [动作][选…

Flutter开发的树莓派应用如何优化性能?

哈喽&#xff0c;我是老刘 前段时间有朋友咨询我在树莓派上开发的Flutter程序如何优化性能的问题。 老刘写了6年多的Flutter代码&#xff0c;树莓派这种平台还真是头一次碰到。 不过我听他说完他们的场景&#xff0c;我就知道他们大概率是碰到性能问题了。 那么今天就来说说这…

十三、行为型(策略模式)

策略模式&#xff08;Strategy Pattern&#xff09; 概念 策略模式&#xff08;Strategy Pattern&#xff09;是一种行为型设计模式&#xff0c;允许定义一系列算法&#xff0c;将每个算法封装在策略类中&#xff0c;并使它们可以互换使用。客户端可以根据需要动态选择不同的策…

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-16

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-16 目录 文章目录 目录1. Leveraging Social Determinants of Health in Alzheimers Research Using LLM-Augmented Literature Mining and Knowledge Graphs2. Alignment Between the Decision-Making Logic of …

Qt | CMake(Qt5 VS Qt6)

点击上方"蓝字"关注我们 01、CMake >>> CMake是一个简化跨不同平台开发项目构建过程的工具。CMake自动生成生成系统,如Makefiles和Visual Studio项目文件。 CMake是一个自带的第三方工具证明文件。 CMake 备忘清单02、如何使用CMake3.1.0带Qt 5 >>&…

【Golang】踩坑记录:make()创建引用类型,初始值是不是nil!!

文章目录 起因二、得记住的知识点1. make()切片&#xff0c;初始化了吗&#xff1f;2. make()切片不同长度容量&#xff0c;append时的差别3. 切片是指向数组的指针吗&#xff1f;4. 切片扩容时&#xff0c;重新分配内存&#xff0c;原切片的数据怎么办&#xff1f; 三、咳咳&a…

blender 金币基站 建模 学习笔记

一、学习blender视频教程链接 案例3&#xff1a;金币基站_建模_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1Bt4y1E7qn?vd_sourced0ea58f1127eed138a4ba5421c577eb1&p12&spm_id_from333.788.videopod.episodes 二、金币基站建模过程 &#xff08;1&#x…