景联文科技打造高质量图文推理问答数据集,赋能大语言模型提升推理能力

server/2024/9/23 5:23:42/

大语言模型在处理推理任务时,不同于人类能够反思错误并修正思维路径,当它遇到自身知识盲区时,缺乏自我校正机制,往往导致输出结果不仅无法改善,反而可能变得更不准确。

需要依赖外部的知识库和推理能力来克服其在理解和生成信息时可能出现的幻觉问题,从而提供更为准确和连贯的输出。

景联文科技是一家专业的大语言模型数据服务商,打造图文推理问答数据集,致力于为不同训练阶段的算法精准匹配高质量数据资源。

1000万条图文问答推理描述数据

数据详情:数据集包含1000万张高清带版权图片和对应的1000万条相应的2轮简单的问答推理(一问一答为一轮)。

图片规格:1080P及以上

数据分类:人物、动物、风景、食物、物品、城市、艺术、植物

数据格式:图片数据格式为jpg,标注文件格式为json

数据规模:

  1. 1000万1080p及以上高清图片,1000万条相应的2轮简单的问答推理(一问一答为一轮)。
  2. 所有图片类目及其对应在json文档中的类目,每张图片对应一个json,分布统计如下所示(单位:张)

人物 150万

动物 150万

风景 150万

食物 150万

物品 140万

城市 120万

艺术 70万

植物 70万

图像格式:jpg

标注文档格式:json

标注内容

  1. 图片分类
    对图片进行分类标注,一级类别、二级类别
    2)图片标签
    对图片中存在的元素进行词组描述
    3)图片描述
    对图片的内容呈现进行细化描述

样例

图片:

Json:

{

"分类":"自然景观",

"标签":"山脉,公路,阳光,蓝天,云朵,山谷",

"图片描述":"一条蜿蜒的公路如同一条银色的丝带,在郁郁葱葱的山谷间穿行。两旁的山峦巍峨,

顶部覆盖着稀疏的积雪,山脚下的植被在春日阳光的照耀下渐渐苏醒。天空是一片澄清的蔚蓝,

几朵洁白的云朵悠然地漂浮。阳光透过云层的缝隙,洒在蜿蜒的道路上,仿佛是大自然的指引,邀请旅者进入这个秘境探索。”

}

在数据安全与合规方面,景联文科技已通过ISO9001质量、ISO27001信息安全、ISO27701国际隐私安全管理认证,积极参与8项国家数据交换格式和数据安全标准制定,牢固构筑数据保护的基石。

获取样例请登录景联文科技官网咨询客服。https://www.jinglianwen.com/ai/

或直接发送需求至邮箱:lx@jinglianwen.com

景联文科技|数据采集|数据标注|大语言模型数据集

助力人工智能技术,赋能传统产业智能化转型升级

文章图文著作权归景联文科技所有,商业转载请联系景联文科技获得授权,非商业转载请注明出处。


http://www.ppmy.cn/server/59923.html

相关文章

快速测试electron环境是否安装成功

快速测试electron环境是否安装成功 测试代码正确运行的效果运行错误的效果v22.4.1 版本无法使用v20.15.1版本无法使用v18.20.4 版本无法使用 终极解决办法 测试代码 1.npx create-electron-app my-electron-app 2.cd my-electron-app 3.npm start 正确运行的效果 环境没问题…

3DS-SLAM(3D目标检测,动态视觉slam)

3DS-SLAM: A 3D Object Detection based Semantic SLAM towards Dynamic Indoor Environments 原文 摘要: 环境中可变因素的存在可能会导致相机定位精度下降,因为它违反了同步定位与建图(SLAM)算法中静态环境的基本假设。最近针对…

QGroundControl的总体架构,模块化设计和主要组件的功能。

QGroundControl 总体架构详细描述 QGroundControl (QGC) 作为一个开源地面控制站软件,其设计原则是模块化、高扩展性和高可维护性。 总体架构 QGroundControl 由多个层次构成,每个层次负责不同的功能。这种分层结构确保了系统的高内聚性和低耦合性。 …

《Unity3D高级编程 主程手记》第三章 数据表(三) 多语言的实现

一般文字放在Excel表里一般都会以Key-Value形式存放,就比如,Key为”RoleName”,Value为”角色名字”,或者Key为1101,Value为”好友分享”等。 这种Key-Value形式,一般会以Int-String形式存在,或者string-string形式存在…

LeetCode67(二进制求和[位运算,大数运算])

二进制求和 题目要求: 给你两个二进制字符串 a 和 b ,以二进制字符串的形式返回它们的和。 这道题其实有几种解法.我们先来介绍简单的方法. 我们可以将两个字符串的二进制转成十进制,获取对应值相加之后,我们可以不断对2取余,获取尾数拼接即可.也就是像我们平常求一…

Redis笔记--手写版

Redis是一种key-value对的非关系型数据库、基于内存的数据库,是单线程的,省掉上下文切换的过程,速度最快,因此常用来作为缓存。 重点需要理解Redis的持久化、主从复制、分布集群、哨兵、缓存穿透、缓存击穿、缓存雪崩等概念

【学习css1】flex布局-页面footer部分保持在网页底部

中间内容高度不够屏幕高度撑不开的页面时候&#xff0c;页面footer部分都能保持在网页页脚&#xff08;最底部&#xff09;的方法 1、首先上图看显示效果 2、奉上源码 2.1、html部分 <body><header>头部</header><main>主区域</main><foot…

【RAG检索增强生成】有道QAnything深度解析与实践

目录 引言1、QAnything简介2、技术解析2.1 RAG技术核心2.2 QAnything架构2.3 模型与算法 3、应用场景3.1 企业知识管理3.2 教育与学术研究3.3 客户服务 4、部署实践4.1 环境准备4.2 安装QAnything4.3 启动运行4.4 访问UI界面4.4 API使用4.4.1 新建知识库&#xff08;POST&#…