【机器翻译方向】数据集合集!

本文将为您介绍经典、热门的数据集,希望对您在选择适合的数据集时有所帮助。

1

QUAK

  • 发布方:

    Upstage·高丽大学

  • 发布时间:

    2022

  • 韩英合成机器翻译质量预测数据 (韩英神经机器翻译的一个合成质量估计数据集,QUAK) 是指韩语句子和英语机器翻译句子,并且每个句子的机器翻译结果的质量是OK/这是一个机器翻译质量预测模型训练数据集,它预测与坏标签。由于用相应数据学习的机器翻译质量预测模型即使没有正确的句子也能预测翻译质量,因此它可以应用于没有正确句子的现实问题。OK/BAD tag对每个单词都有标记,以指示机器翻译结果中的哪些标记 (单词) 被错误翻译,对齐的源标记也被标记,因此即使不知道翻译语言的用户也可以知道哪些单词被错误翻译。

  • 简介:

    NumGLUE 是一个多任务基准测试,用于评估人工智能系统在八个不同任务上的性能,其核心需要简单的算术理解。

  • 下载地址:

    https://github.com/AIChallenger/AI_Challenger_2017

  • 论文地址:

    https://arxiv.org/pdf/1711.06475.pdf

2

HumanMT

  • 发布方:

    海德堡大学·马尼拉雅典耀大学

  • 发布时间:

    2018

  • 简介:

    HumanMT 是人工评分和机器翻译更正的集合。它由两部分组成:第一部分包含五分和成对句子级别的评分,第二部分包含错误标记和更正。详情如下所述。 I. 句子级评分这是对 TED 演讲的 1000 个德英机器翻译的五分和成对评分的集合(IWSLT 2014)。收集评级的目的是评估机器翻译质量评级的可靠性和可学习性,以改进具有人工强化的神经机器翻译模型(参见出版物)。二、错误标记和更正这是对 30 个选定的 TED 演讲(IWSLT 2017)的 3120 个英语-德语机器翻译句子的单词级错误标记和后期编辑/更正的集合。每个句子都从人工注释者那里得到更正或错误标记。收集这些数据的目的是比较注释成本和质量,以及注释模式之间下游机器翻译改进的潜力(参见出版物)。

  • 下载地址:

    https://www.cl.uni-heidelberg.de/statnlpgroup/humanmt/

  • 论文地址:

    https://arxiv.org/pdf/1805.10627v3.pdf

3

WMT 2014

  • 发布方:

    约翰霍普金斯大学·Google·爱丁堡大学·阿姆斯特丹大学·谢菲尔德大学·查理大学·都柏林城市大学·Microsoft Research

  • 发布时间:

    2013-12

  • 简介:

    英语-德语和英语-捷克语的神经机器翻译

  • 下载地址:

    https://www.statmt.org/wmt14/index.html

4

38万组维汉平行语料数据

  • 发布方:

    数据堂(北京)科技股份有限公司

  • 简介:

    38 万维语及其平行对应的汉语文本,并进行数据清洗脱敏质检,可作为文本类数据分析的基础语料库,用于机器翻译等领域

  • 下载地址:

    https://www.datatang.com/dataset/194?source=openxlab

5

IWSLT 2019

  • 发布方:

    谢菲尔德大学·伦敦帝国理工学院·阿利坎特大学

  • 发布时间:

    2019    

  • 简介:

    IWSLT 2019 数据集包含源文本、机器翻译文本、参考文本和后期编辑文本,可用于量化和评估自动 MT 后的后期编辑工作。

  • 下载地址:

    https://github.com/carolscarton/iwslt2019

  • 论文地址:

    https://arxiv.org/pdf/1910.06204v1.pdf

6

GeBioCorpus

  • 发布方:

    加泰罗尼亚理工大学·TALP Research Center

  • 发布时间:

    2020

  • 简介:

    用于机器翻译评估的高质量数据集,旨在成为首批非合成性别平衡测试数据集之一。

  • 下载地址:

    https://github.com/PLXIV/Gebiotoolkit

  • 论文地址:

    https://arxiv.org/pdf/1912.04778v1.pdf

7

FLoRes (Facebook Low Resource MT Benchmark)

  • 发布方:

    Facebook Research

  • 发布时间:

    2019

  • 简介:

    FLoRes 是一个基准数据集,用于根据维基百科翻译的句子,在英语和四种低资源语言(尼泊尔语、僧伽罗语、高棉语和普什图语)之间进行机器翻译

  • 下载地址:

    https://github.com/facebookresearch/flores/

  • 论文地址:

    https://aclanthology.org/D19-1632.pdf

8

DiaBLa

  • 发布方:

    爱丁堡大学·巴黎萨克雷大学·南巴黎大学

  • 发布时间:

    2019

  • 简介:

    一个新的英语-法语测试集,用于评估机器翻译 (MT) 的非正式书面双语对话。测试集包含以英语和法语为母语的人之间的 144 个自发对话(5,700 多个句子),由一系列角色扮演设置中的两个神经 MT 系统之一介导。对话伴随着机器翻译质量的细粒度句子级判断,由对话参与者自己产生,以及人工规范化的版本和后验产生的参考翻译。

  • 下载地址:

    https://github.com/rbawden/DiaBLa-dataset

  • 论文地址:

    https://arxiv.org/pdf/1905.13354v1.pdf

9

FLORES-101

  • 发布方:

    Facebook AI Research

  • 发布时间:

    2021-01-01

  • 简介:

    FLORES 评估基准由从英语维基百科中提取的 3001 个句子组成,涵盖各种不同的主题和领域。这些句子已由专业翻译人员通过严格控制的过程翻译成 101 种语言。生成的数据集可以更好地评估低资源语言的长尾模型质量,包括评估多对多多语言翻译系统,因为所有翻译都是多语言对齐的。通过公开发布如此高质量和高覆盖率的数据集,我们希望促进机器翻译社区及其他领域的进步。论文:低资源和多语言机器翻译的 FLORES-101 评估基准

  • 下载地址:

    https://github.com/facebookresearch/flores?fbclid=IwAR0nwCjtEEcowZOsIqNe_Ib9LpEuKixTPikf3I9G_3CzlWcG23qjd1G6tmE

  • 论文地址:

    https://arxiv.org/pdf/2106.03193v1.pdf

10

WMT 2020

  • 发布方:

    约翰霍普金斯大学·微软·爱丁堡大学·阿姆斯特丹大学·谢菲尔德大学·加拿大国家研究委员会·罗彻斯特理工学院·加泰罗尼亚理工大学·东京大学·查理大学·都柏林三一学院·约瑟夫·斯蒂芬研究所·Wipro AI Labs·Nippon Telegraph and Telephone Corporation

  • 发布时间:

    2020

  • 简介:

    WMT 2020 是第五届机器翻译会议共享任务中使用的数据集集合。该会议建立在一系列关于统计机器翻译的年度研讨会和会议的基础上。 会议共有十项共同任务: 新闻翻译任务, 生物医学翻译任务, 类似的语言翻译任务, 无监督且资源极少的翻译任务, 自动后期编辑任务, 一个度量任务(在给定参考翻译的情况下评估 MT 质量), 质量评估任务(评估 MT 质量,无需访问任何参考), 并行语料库过滤和对齐任务, 终身学习 MT 任务, 聊天翻译任务。

  • 下载地址:

    https://www.statmt.org/wmt20/

  •  论文地址:

    https://aclanthology.org/2020.wmt-1.1.pdf

11

PheMT

  • 发布方:

    日本理化学研究所先进智能研究中心·Tohoku University·Nippon Telegraph and Telephone Corporation

  • 发布时间:2020

  • 简介:

    PheMT 是一个现象级数据集,旨在评估日英机器翻译系统的鲁棒性。该数据集基于 MTNT 数据集,对 UGC 中常见的四种语言现象进行了附加注释;专有名词、缩写名词、口语表达和变体。冷却 2020。

  • 下载地址:

    https://github.com/cl-tohoku/PheMT

  •  论文地址:

    https://arxiv.org/pdf/2011.02121v1.pdf

12

APE (Automatic Post-Editing)

  • 发布方:纽约大学·Unbabel

    发布时间:2020

  • 简介:

    APE 可用于评估机器翻译自动后期编辑 (APE),这是通过自动修复错误来改进黑盒 MT 系统输出的任务。后期编辑文本的行为可以完全指定为给定位置的一系列删除和插入操作。

  • 下载地址:

    https://github.com/antoniogois/keystrokes_ape

  •  论文地址:

    https://arxiv.org/pdf/2004.14120v2.pdf

 温馨  小贴士

如有您想了解的计算机方向数据集

请联系我们

免费为您提供数据集搜索服务


http://www.ppmy.cn/devtools/99565.html

相关文章

游卡,得物,三七互娱,顺丰(提前批),快手,oppo,埃科光电,康冠科技25届秋招内推

游卡,得物,三七互娱,顺丰(提前批),快手,oppo,埃科光电,康冠科技25届秋招内推 ①游卡 【岗位】程序技术类、产品策划类、美术类、发型运营类、职能综合类、桌游业务类 【一…

解密《黑神话:悟空》脚本

本文部分参考来自于:john 《黑神话:悟空》这游戏昨天上线了,我第一时间就下载玩了。玩的时候我就挺好奇他们是怎么写的程序,毕竟这么大的游戏项目肯定不会只用C一种语言来写。所以我解压了游戏文件,看看里面有…

【Android】Glide模块工作原理

Glide模块工作原理 每个Glide模块包含一个Decoder,和一个Transcoder Decoder负责将DataSource转换为对应的Resource Transcoder负责将对应的Resource,转换为Drawable GlideModule示例 这里以SVG为例,展示下GlideModule是如何定义的 cla…

Eclipse SVN 插件在线下载地址

Eclipse SVN 插件 Subversive 在线安装 1、选择help下的install new software 2、点击 add 3、Name随便写,Location输入: https://download.eclipse.org/technology/subversive/4.8/release/latest/ 点击Add 4、然后一直下一步,Finish&am…

霸王餐返利APP的技术架构与业务模型分析

霸王餐返利APP的技术架构与业务模型分析 大家好,我是阿可,微赚淘客系统及省赚客APP创始人,是个冬天不穿秋裤,天冷也要风度的程序猿! 霸王餐返利APP作为一种新型的电商导购平台,通过提供用户参与霸王餐活动…

(十三)Flink SQL

目录 DDL 操作 DML 操作 查询语句 1. SELECT DISTINCT 2. 窗口函数 3. 窗口聚合 4. OVER 聚合 5. 连接操作 6. TOP-N Flink 对 SQL 的支持基于实现了 SQL 标准的 Apache Calcite,包括数据定义语言(Data Definition Language,DDL)、数据操纵语言(Data Manipulatio…

Apache Doris安装部署

目录 Doris简介 Doris安装包下载 JDK安装 Doris安装 单机部署安装 部署规划 创建用户 解压安装包 配置FE 配置BE 启动FE和BE 连接Doris 集群添加BE节点 修改root和admin用户的密码 创建数据库和数据表 停止 Apache Doris Doris简介 Apache Doris官网主页如下…

网络协议分析器:开发人员的数据洞察利器

标题:网络协议分析器:开发人员的数据洞察利器 在网络通信的世界里,数据以包为单位在设备间流动。网络协议分析器是开发人员和网络工程师用来捕获、分析和解码这些数据包的工具。它们帮助理解数据在网络中的流动方式,以及不同网络…

数据结构——冒泡、选择、插入和希尔排序

目录 引言 冒泡排序 1.算法思想 2.算法步骤 3.代码实现 4.复杂度分析 选择排序 1.算法思想 2.算法步骤 3.代码实现 (1)优化前 (2)优化后 4.复杂度分析 插入排序 1.算法思想 2.算法步骤 3.代码实现 4.复杂度分析 希尔排序 1.算法思想 2.算法步骤 3.代码实…

python脚本:输入基因名,通过爬虫的方式获取染色体上的location。

本团队提供生物医学领域专业的AI(机器学习、深度学习)技术支持服务。如果您有需求,请扫描文末二维码关注我们。 python脚本:输入基因名,通过爬虫的方式获取染色体上的location。 def get_gene_location(gene_symbol):…

TCP/IP详解

TCP/IP(传输控制协议/互联网协议)是支撑互联网和许多其他网络的基础协议套件。它由两个主要的协议组成:TCP(Transmission Control Protocol)和IP(Internet Protocol),以及一系列相关…

【前端面试】看react源码,解读useState

点击:react git 链接 截止2024.8.22最新版本如下 React hooks 源码好深,hook封装位于packages/react-reconciler/src/ReactFiberHooks.js hook的数据类型: export type Hook = {memoizedState: any,baseState: any,baseQueue: Update<any, any> | null,queue: an…

零基础学习Redis(5) -- redis单线程模型介绍

前面我们提到过&#xff0c;redis是单线程的&#xff0c;这期我们详细介绍一下redis的单线程模型 1. redis单线程模型 redis只使用一个线程处理所有的请求&#xff0c;并不是redis服务器进程内部只有一个线程&#xff0c;其实也存在多个线程&#xff0c;只不过多个线程是在处…

‌无人机干扰技术及其法律约束

无人机作为一种先进的航空器&#xff0c;‌近年来在民用、‌商用、‌军事等领域得到了广泛应用。‌然而&#xff0c;‌随着无人机技术的不断发展&#xff0c;‌其受到的潜在威胁也日益增多。‌许多外部因素可以干扰无人机的正常运行&#xff0c;‌甚至导致其失控或坠毁。‌本文…

鸿蒙内核源码分析(特殊进程篇)

三个进程 鸿蒙有三个特殊的进程&#xff0c;创建顺序如下: 2号进程&#xff0c;KProcess&#xff0c;为内核态根进程.启动过程中创建.0号进程&#xff0c;KIdle为内核态第二个进程&#xff0c;它是通过KProcess fork 而来的.这有点难理解.1号进程&#xff0c;init&#xff0c…

【Leetcode:93. 复原 IP 地址 + dfs】

&#x1f680; 算法题 &#x1f680; &#x1f332; 算法刷题专栏 | 面试必备算法 | 面试高频算法 &#x1f340; &#x1f332; 越难的东西,越要努力坚持&#xff0c;因为它具有很高的价值&#xff0c;算法就是这样✨ &#x1f332; 作者简介&#xff1a;硕风和炜&#xff0c;…

git cherry-pick命令使用分享

在日常开发中&#xff0c;有时候会遇到一种情况&#xff0c;线上出了问题&#xff0c;但是现在的预生产环境&#xff08;Pre-production Environment&#xff09;或准生产环境&#xff08;Stage Environment&#xff09;有还未通过验收的内容&#xff0c;那么想进行修复可以选择…

利用ChatGPT提升学术论文撰写效率:从文献搜集到综述撰写的全面指南

大家好,感谢关注。我是七哥,一个在高校里不务正业,折腾学术科研AI实操的学术人。关于使用ChatGPT等AI学术科研的相关问题可以和作者七哥(yida985)交流,多多交流,相互成就,共同进步,为大家带来最酷最有效的智能AI学术科研写作攻略。 本文旨在介绍如何利用AI辅助工具,…

24暑假算法刷题 | Day39 | 动态规划 VII | LeetCode 198. 打家劫舍,213. 打家劫舍 II,337. 打家劫舍 III

目录 198. 打家劫舍题目描述题解 213. 打家劫舍 II题目描述题解 337. 打家劫舍 III题目描述题解 打家劫舍的一天 &#x1f608; 198. 打家劫舍 点此跳转题目链接 题目描述 你是一个专业的小偷&#xff0c;计划偷窃沿街的房屋。每间房内都藏有一定的现金&#xff0c;影响你偷…

【数据结构与算法】并行搜索

并行搜索目录 一.并行的基础知识1.进程2.线程 二.正常遍历搜索三.线程并发搜索1.线程身份证和句柄2.创建线程3.搜索结构体4.处理函数实现 四.完整代码 一.并行的基础知识 1.进程 说的简单点,进程就是计算机中的多个程序,就相当于多个软件. 比如我同时打开QQ和WX,那么这个就叫…