基于DeepSeek 的图生文最新算法 VLM-R1

devtools/2025/3/3 18:34:28/

目录

一、算法介绍

二 算法部署

三 模型下载

四 算法测试

五 可视化脚本


一、算法介绍

VLM-R1:稳定且可通用的 R1 风格大型视觉语言模型

自从 Deepseek-R1 推出以来,出现了许多专注于复制和改进它的作品。在这个项目中,我们提出了 VLM-R1,一种稳定且可通用的 R1 风格的大型视觉语言模型。

具体来说,对于引用表达式理解 (REC) 的任务,我们使用 R1 和 SFT 方法训练了 Qwen2.5-VL。结果表明,在域内测试数据上,SFT 模型的性能略低于 R1 模型(如上图顶部所示)。然而,在域外测试数据上,SFT 模型的性能随着步数的增加而显著恶化,而 R1 模型则显示出稳定的改进,如下图所示。


http://www.ppmy.cn/devtools/164247.html

相关文章

【Linux网络#13】:网络层(IP 协议 网络通信 全球网络 路由转发)

📃个人主页:island1314 🔥个人专栏:Linux—登神长阶 ⛺️ 欢迎关注:👍点赞 👂🏽留言 😍收藏 💞 💞 💞 最后的最后,这里送…

对“预训练”的理解

预训练有什么用 传统的机器学习是偏数学的,对数据的量不做过多要求,而深度学习的项目通常是有大量的数据可供使用。 在平常的任务或者项目中,我们可能并没有大量数据,只有少量数据,在这时我们就可以通过“借用”有大…

Vim 常用快捷键大全:跳转、编辑、查找替换全解析

摘要: Vim 是一款非常强大的文本编辑器,许多程序员和系统管理员都离不开它。 本文详细介绍了 Vim 编辑器中的常用快捷键和命令,从基本模式、光标移动、编辑操作到查找替换,再到文件保存等常用操作,帮助你快速上手并提…

DifyでOracle Base Database Service(23ai)を利用する設定手順

[TOC](DifyでOracle Base Database Service(23ai)を利用する設定手順) はじめに 本記事では、DifyプラットフォームとOracle Base Database Service(23aiエディション)を連携させる方法を解説します。クラウド環境における大規模データ処理を想定した設…

CMS Made Simple v2.2.15远程命令执行漏洞(CVE-2022-23906)

漏洞简介: CMS Made Simple v2.2.15 被发现包含通过上传图片功能的远程命令执行 (RCE) 漏洞。此漏洞通过精心制作的图像文件被利用。 漏洞环境: 春秋云镜中的漏洞靶标,CVE编号为CVE-2022-23906 漏洞复现 后台/admin弱口令登录 admin/123…

c++ 文件及基本读写总结

在 C 中,文件操作是非常重要的一部分,主要用于将数据存储到文件中,或者从文件中读取数据。C 标准库提供了fstream头文件,其中包含了用于文件操作的类,主要有ifstream(用于输入文件流,即从文件读…

校园的网络安全

🍅 点击文末小卡片 ,免费获取网络安全全套资料,资料在手,涨薪更快 1、什么是端口安全 端口安全(Port Security),从基本原理上讲,Port Security特性会通过MAC地址表记录连接到交换机…

使用MATLAB结合EasySpin进行ESR模拟的详细步骤及示例代码

以下是使用MATLAB结合EasySpin进行ESR模拟的详细步骤及示例代码,以实现对两个样品的单线态氧自由基( 1 O 2 ^1O_2 1O2​)和超氧自由基( O 2 − O_2^- O2−​)的模拟,并将模拟结果导出为Excel文件。 步骤概…