NeurIPS 2024 有效投稿达 15,671 篇,数据集版块内容丰富

server/2024/11/27 8:43:18/

NeurIPS,全称 Neural Information Processing Systems Conference,是神经信息处理系统的年度学术会议。该会议始于 1987 年,当时名为 NIPS。随着人工智能领域的快速发展,其影响力逐渐扩大,被越来越多的研究者和企业关注并熟知。为了更好地反映会议涵盖的广泛领域,NIPS 于 2017 年正式更名为 NeurIPS。

如今,NeurIPS 已经成为全球人工智能领域最具权威性的学术会议之一,吸引了来自世界各地的学者、企业家和研究人员。

今年是 NeurIPS 举办的第 38 届 (NeurIPS 2024),学术成果盛况依旧。据悉,今年共收到 15,671 篇有效投稿,最终接收了 4,000 篇左右论文。

HyperAI超神经从大会接收的数据集中为大家汇总了 9 个高质量开源数据集,覆盖云层去除、化学光谱、歌声音频、自动驾驶、昆虫标本等多个方面,大家可以按需下载~

点击了解更多顶会信息:
https://go.hyper.ai/vWvAW

NeurIPS 2024 数据集汇总

1、AllClear 公共云层去除数据集

发布机构:康奈尔大学、哥伦比亚大学

预估大小:22.42 GB

下载地址:https://go.hyper.ai/uVwmU

卫星图像中的云层对于下游应用构成了重大挑战,当前云去除研究面临的一个主要问题是缺乏全面的基准测试和足够大且多样化的训练数据集。而 AllClear 是目前最大的公共云层去除数据集,包含 23,742 个全球分布的兴趣区域 (ROIs),覆盖了多样的土地利用模式,总共包含 400 万张图像。

2、Muharaf 手写阿拉伯文数据集

发布机构:北卡罗来纳州立大学、卡斯利克圣灵大学、黎巴嫩历史协会

预估大小:9.83 GB

下载地址:https://go.hyper.ai/HBEuz

Muharaf 数据集是一个专注于手写阿拉伯文识别的机器学习数据集,包含了超过 1.6k 张历史手写页面图像,这些图像由档案阿拉伯语专家转录。每张文档图像都伴随着其文本行的空间多边形坐标以及基本页面元素的信息,旨在推进手写文本识别 (HTR) 领域的技术进步。

3、化学多模光谱数据集

发布机构:IBM Research 、苏黎世大学、 EPFL 、NCCR Catalysis

预估大小:9.7 GB

下载地址:https://go.hyper.ai/sXVdm

数据集包含了从专利数据中的化学反应中提取的 79 万种分子的模拟 1H-NMR 、13C-NMR、HSQC-NMR 、红外和质谱(正负离子模式)光谱数据。这个数据集的核心价值在于其能够整合多种光谱模态的信息,模拟人类专家分析分子结构的方法,从而有望自动化结构解析,简化从合成到结构确定的分子发现流程。

4、GTSinger 歌声音频数据集

发布机构:浙江大学

预估大小:28.94 GB

下载地址:https://go.hyper.ai/gLb3t

数据集包含了 80.59 小时的专业录音棚录制的歌声,这些歌声由 20 位专业歌手演唱,覆盖了 9 种不同的语言,包括汉语、英语、日语、韩语等,为研究者提供了一个音色和风格极为丰富的资源库。

5、DrivingDojo 自动驾驶数据集

发布机构:中国科学院、美团、中国科学院香港创新研究院人工智能与机器人中心

下载地址:https://go.hyper.ai/a85sN

数据集包含约 18k 个视频片段,涵盖北京、深圳、徐州等城市,并在不同的天气条件和日光条件下录制。它不仅包括了加速、紧急刹车、停车启动等纵向操作,还包括了掉头、超车和变道等横向操作。此外,数据集特别设计了包含大量多主体交互轨迹的视频,旨在提升世界模型在复杂驾驶环境中的预测和控制能力。

6、多模态昆虫生物多样性数据集

发布机构:生物多样性基因组学中心、圭尔夫大学、滑铁卢大学等

预估大小:37.71 GB

下载地址:https://go.hyper.ai/narLh

BIOSCAN-5M 数据集包含了超过 500 万昆虫标本的详细信息,显著扩展了现有的基于图像的生物数据集,不仅包括分类标签、原始核苷酸条形码序列、分配的条形码索引号和地理信息,还涵盖了标本大小等多模态信息,旨在理解和监测全球昆虫生物多样性。

7、OpenSatMap 高分辨率卫星数据集

发布机构:中国科学院、中国科学院香港信息系统研究所人工智能与机器人研究中心、腾讯地图和北京邮电大学

预估大小:57.7 GB

下载地址:https://go.hyper.ai/mFXUw

数据集是一个高分辨率卫星数据集,专为大规模地图构建而设计。其特点是细粒度的实例级注释和高分辨率图像,包含了 3,787 张高分辨率卫星图像,其中不仅包括中国多个城市的图像,还涵盖全球 50 多个城市和 18 个国家的图像。

8、自然物种声音数据集

发布机构:马萨诸塞大学阿默斯特分校、iNaturalist

预估大小:131.26 GB

下载地址:https://go.hyper.ai/R8Ix7

数据集收集了 230,000 个音频文件,捕捉了来自超过 5,500 个物种的声音,这些声音由全球超过 27,000 名记录者贡献。这个数据集包含了鸟类、哺乳动物、昆虫、爬行动物和两栖动物的声音,音频和物种标签来源于提交给 iNaturalist 的观察记录。

9、MINT-1T 文本图像对多模态数据集

发布机构:华盛顿大学、斯坦福大学、Salesforce Research 等

下载地址:https://go.hyper.ai/l5vvj

数据集包含 1 万亿个文本标记和 34 亿张图像,其规模是之前最大开源数据集的 10 倍。它不仅包括 HTML 文档,还涵盖 PDF 文档和 ArXiv 论文,其多样性显著提升了科学文档的覆盖率。

10、AudioSetCaps 音频字幕数据集

发布机构:西北工业大学、西安联丰声学技术有限公司、南洋理工大学、中国科学院声学研究所等

下载地址:https://go.hyper.ai/WRZDQ

AudioSetCaps 是一个音频-字幕数据集,数据来源于 AudioSet 、YouTube-8M 和 VGGSound,包含 6,117,099 个 10 秒的音频文件。每个音频文件都附有一个描述性标题,还附有 3 个 Q&A 对作为生成最终标题的元数据(共 18,414,789 对 Q&A 数据)。

以上就是 HyperAI超神经为大家汇总的 NeurIPS 2024 数据集,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!


http://www.ppmy.cn/server/145294.html

相关文章

解决Flink读取kafka主题数据无报错无数据打印的重大发现(问题已解决)

亦菲、彦祖们,今天使用idea开发的时候,运行flink程序(读取kafka主题数据)的时候,发现操作台什么数据都没有只有满屏红色日志输出,关键干嘛?一点报错都没有,一开始我觉得应该执行程序…

PAT甲级-1134 Vertex Cover

题目 题目大意 给定一个图,n是定点数,m是边数,给出每条边的两个顶点来表示边。又给定k个顶点集,要求判断这些顶点集是否是定点覆盖集。是的话输出Yes,否则输出No。 思路 vertex cover是顶点覆盖的意思,即…

Web开发技术栈选择指南

互联网时代的蓬勃发展,让越来越多人投身软件开发领域。面对前端和后端的选择,很多初学者往往陷入迷茫。让我们一起深入了解这两个领域的特点,帮助你做出最适合自己的选择。 在互联网发展的早期,前端开发主要负责页面布局和简单的…

【优先算法学习】双指针--结合题目讲解学习

目录 1.有效三角形的个数 1.2题目解题思路 1.3代码实现 2.和为s的两个数 2.1刷题链接-> 2.2题目解题思路 2.3代码实现 1.有效三角形的个数 1.1刷题链接-> 力扣-有效三角形的个数https://leetcode.cn/problems/valid-triangle-number/description/ 1.2题目解…

避坑ffmpeg直接获取视频fps不准确

最近在做视频相关的任务,调试代码发现一个非常坑的点,就是直接用ffmpeg获取fps是有很大误差的,如下: # GPT4o generated import ffmpegprobe ffmpeg.probe(video_path, v"error", select_streams"v:0", sho…

windows下安装wsl的ubuntu,同时配置深度学习环境

写在前面,本次文章只是个人学习记录,不具备教程的作用。个别信息是网上的,我会标注,个人是gpt生成的 安装wsl 直接看这个就行;可以不用备份软件源。 https://blog.csdn.net/weixin_44301630/article/details/1223900…

C嘎嘎探索篇:栈与队列的交响:C++中的结构艺术

C嘎嘎探索篇:栈与队列的交响:C中的结构艺术 前言: 小编在之前刚完成了C中栈和队列(stack和queue)的讲解,忘记的小伙伴可以去我上一篇文章看一眼的,今天小编将会带领大家吹奏栈和队列的交响&am…

Spring Boot OA:企业数字化转型的利器

3系统分析 3.1可行性分析 通过对本企业OA管理系统实行的目的初步调查和分析,提出可行性方案并对其一一进行论证。我们在这里主要从技术可行性、经济可行性、操作可行性等方面进行分析。 3.1.1技术可行性 本企业OA管理系统采用SSM框架,JAVA作为开发语言&a…