阿里开源多模态大模型Ovis1.6,重塑出海电商AI格局

devtools/2024/9/24 10:48:44/

阿里开源Ovis1.6:多模态领域再夺第一

阿里再一次证明了自己在多模态领域的实力。这一次,阿里国际AI团队开源的多模态大模型Ovis1.6,不仅成功开源,还在多模态评测基准OpenCompass上击败了Qwen2VL-7B、InternVL2-26B和MiniCPM-V-2.6等主流开源模型,荣登300亿参数以下模型榜首。

Ovis1.6不仅仅是在视觉感知推理、数学推理以及科学分析等多项任务中表现优异,甚至在一些评测中超过了闭源模型GPT-4o-mini。无论是学术研究、生活场景,还是金融财报分析,Ovis1.6的表现堪称卓越。

Ovis1.6的实际应用

在应用方面,Ovis1.6展示了多模态大模型的广泛适用性。例如,它可以通过视觉理解和数学推理来帮助用户处理复杂的大学数学问题;

还能够解析论文,生成关键内容,或进行财务报表的分析。

这一模型甚至可以通过图像分析,生成简单易懂的烹饪指导,例如教用户如何做一道经典的炸鱼薯条。

更重要的是,Ovis系列大模型遵循Apache 2.0开源协议,允许开发者进行商用。这种开放性和灵活性使其在开发和商用环境中具有极高的实用价值。​

技术细节揭秘:视觉与文本嵌入的对齐

阿里国际AI团队在开发Ovis1.6时,针对多模态模型存在的视觉与文本信息不协调的问题提出了创新性的解决方案。传统多模态大模型往往通过简单的连接器将预训练的大语言模型(LLM)与视觉Transformer结合,但这种方法导致文本和视觉模块难以有效融合,影响模型的整体性能。

Ovis1.6引入了视觉Tokenizer、视觉嵌入表以及大语言模型相结合的架构,通过可学习的视觉嵌入表,将连续的视觉特征转化为结构化的视觉token。然后,这些视觉token会和文本token一起被处理,完成多模态任务。

这种架构设计,不仅解决了视觉和文本信息的对齐问题,还显著提升了模型在处理复杂视觉任务和文本生成任务时的性能。

优化与应用

Ovis1.6相较于前代产品Ovis1.5,在架构、数据以及训练策略等方面进行了全面优化。例如,采用动态子图方案来灵活处理不同分辨率的图像特征,在实际任务中提升了模型的应对能力。数据方面,Ovis1.6涵盖了丰富的数据集,如Caption、OCR、表格、图表和数学数据,确保模型在多个应用场景中保持优异表现。训练策略方面,通过DPO等优化手段,进一步增强了模型的生成和理解复杂任务的能力。

实验表明,Ovis1.6与基于MLP连接器的架构相比,性能提升了8.8%。此外,Ovis1.6已经应用于阿里国际的多项实际业务中,特别是在出海电商领域,展现出了显著的降本增效效果。

Ovis1.6助力出海电商

阿里国际通过Ovis1.6的强大AI能力,改变了跨境电商领域的工作方式。特别是在退货和退款审核环节,Ovis1.6通过处理用户提供的图文、视频信息,实现了秒级别的审核,极大减少了人力成本,提高了效率和一致性,确保了商家与消费者的公平权益。

此外,Ovis1.6还在商品属性提取、生成卖点等应用场景中被广泛应用,优化了商品发布流程,并提升了商品的搜索量和曝光度。阿里国际的AI能力已覆盖营销、客户服务、商品发布等40多个应用场景,日均调用超过5000万次。

AI助力商家:降本增效的秘密武器

Ovis1.6只是阿里国际AI能力的一部分,阿里国际还构建了多语言增强大模型Marco,以及电商版多模态大模型MarcoVL,专门为电商领域提供定制化服务。这些AI技术已经成为跨境商家在全球市场中提升竞争力的重要工具。

例如,通过AI生成的多语言商品描述,使得商家能够突破语言障碍,更加高效地与全球消费者沟通。AI图片处理技术,如一键生成虚拟试衣效果等,也让商品展示更加生动,进一步提高了购买转化率。

阿里国际的Ovis1.6大模型,不仅在技术上取得了重要突破,更在实际商业应用中展现了强大的降本增效能力。通过开源和AI技术的赋能,阿里国际为出海电商商家提供了更具竞争力的工具和服务,也为全球开发者和企业提供了更多技术创新的可能。

对于广大开发者而言,Ovis1.6的开源无疑是一个重大利好,为他们带来了强大的多模态技术,推动更多创新和应用的诞生。

Ovis1.6开源地址和Demo:
arXiv: https://arxiv.org/abs/2405.20797
Github: https://github.com/AIDC-AI/Ovis
Huggingface:https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B
Demo:https://huggingface.co/spaces/AIDC-AI/Ovis1.6-Gemma2-9B


http://www.ppmy.cn/devtools/116450.html

相关文章

论文阅读--Planning-oriented Autonomous Driving(二)

自动驾驶框架的各种设计比较。 ( a )大多数工业解决方案针对不同的任务部署不同的模型。 ( b )多任务学习方案共享一个具有分割任务头的主干。 ( c )端到端范式将感知和预测模块统一起来。以往的尝试要么采用( c.1 )中对规划的直接优化,要么采用( c.2 )中的部分元…

OpenCV特征检测(12)检测图像中的潜在角点函数preCornerDetect()的使用

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 计算用于角点检测的特征图。 该函数计算源图像的基于复杂空间导数的函数 dst ( D x src ) 2 ⋅ D y y src ( D y src ) 2 ⋅ D x x src − 2 …

cisco网络安全技术第2章测试及考试

测试 1、通过思科 IOS CLI 提供哪些工具来启动安全审计并在有或没有管理员输入的情况下进行推荐的配置更改? 思科 AutoSecure 2、可以配置 SNMP 实施的哪个元素来响应请求以及转发通知? SNMP 代理 3、哪两项任务与路由器加固相关联?&…

面经3——中和农信

今天参加了中和农信的面试,先进行60分钟的笔试,笔试完参加面试,面试官有两个人,面试了大概四十多分钟,因为没有亮点的项目,简历看起来十分单薄。现在来复盘一下。 笔试 事务ACID、事务隔离级别、乐观锁的…

Ansible部署openstack案例

案例为使用Ansible工具部署一个单控制单计算的OpenStack平台。 macbook双网卡,配置路由: sudo route -n add -net 192.168.100.0 -netmask 255.255.255.0 172.16.16.1 sudo route -n add -net 192.168.200.0 -netmask 255.255.255.0 172.16.16.1一、环境准备 使用OpenStack…

剑侠情缘c++源码全套(增加缺失的头文件和相关的库,其它网上流传的都是不全的)剑网三源码

剑侠情缘c源码全套(增加缺失的头文件和相关的库,其它网上流传的都是不全的) 下载地址: 通过网盘分享的文件:剑侠情缘c源码全套(增加缺失的头文件和相关的库,其它网上流传的都是不全的&#xff0…

[深度学习]Pytorch框架

1 深度学习简介 应用领域:语音交互、文本处理、计算机视觉、深度学习、人机交互、知识图谱、分析处理、问题求解2 发展历史 1956年人工智能元年2016年国内开始关注深度学习2017年出现Transformer框架2018年Bert和GPT出现2022年,chatGPT出现,进入AIGC发展阶段3 PyTorch框架简…

实验十七:串口通信实验

串口通信实验硬件接口图 具体原理可以查看相应的资料和视频 现就代码分享如下; main.c #include<reg52.h>typedef unsigned int u16; typedef unsigned char u8;sbit LED1=P2^0;void delay_10us(u16 n) {while(n--); }int n=0;void delay_ms(u16 ms) {u16 i,j;for(i=…