AI深度、机器学习数据集资源汇总

news/2024/11/28 0:15:55/

文章目录

 

  • 前言
  • 一、数据集网站
  • 二、具体数据集
    • 1.记录的具体数据集
    • 2.医疗图像
    • 3.网上数据集汇总链接
  • 总结


前言

继续收集、更新、汇总.......................

 

一、数据集网站

1.AI Studio数据集: 开放数据集-百度AI Studio - 人工智能学习与实训社区

2.天池数据集:数据集-阿里系唯一对外开放数据分享平台

3.Papers With Code数据集:Machine Learning Datasets | Papers With Code

4.Kaggle 数据集:Find Open Datasets and Machine Learning Projects | Kaggle爱竞赛的盆友们应该很熟悉了,Kaggle上有各种有趣的数据集,拉面评级、篮球数据、甚至西雅图的宠物许可证。

5.Graviti Open Datasets:公开数据集下载,优质机器学习数据集,图像识别、NLP免费获取 | 格物钛,非结构化数据平台

6.Huggingface数据集:Hugging Face – The AI community building the future.

7.CLUE 数据集:https://www.cluebenchmarks.com/dataSet_search.html

8.各领域机器学习数据集汇总(附下载地址)

9.UCI机器学习库:最古老的数据集源之一,是寻找有趣数据集的第一站。虽然数据集是用户贡献的,因此具有不同的清洁度,但绝大多数都是干净的,可以直接从UCI机器学习库下载,无需注册。

10.VisualData:分好类的计算机视觉数据集,可以搜索~

二、具体数据集

1.记录的具体数据集

KITTI数据集:The KITTI Vision Benchmark Suite (cvlibs.net)

Cityscapes:Cityscapes Dataset – Semantic Understanding of Urban Street Scenes (cityscapes-dataset.com)

牛津数据集:[Datasets (ox.ac.uk)](https://robotcar-dataset.robots.ox.ac.uk/datasets/)

ApolloScape:[Apollo Scape](http://apolloscape.auto/)

BDD100K:Berkeley DeepDrive

Waymo Open Dataset:GitHub - waymo-research/waymo-open-dataset: Waymo Open Dataset

nuScenes数据集:https://www.nuscenes.org/download

3D Photography Dataset:(uiuc.edu)

Matterport 3D重建数据集:[Capture, share, and collaborate the built world in immersive 3D (matterport.com)](https://matterport.com/)

NoW Dataset:(mpg.de)

Pix3D:[Pix3D (mit.edu)](http://pix3d.csail.mit.edu/)

Replica Dataset:GitHub - facebookresearch/Replica-Dataset: The Replica Dataset v1 as published in https://arxiv.org/abs/1906.05797 .

Scan2CAD:[GitHub - skanti/Scan2CAD: CVPR'19] Dataset and code used in the research project Scan2CAD: Learning CAD Model Alignment in RGB-D Scans

ScanNet:[ScanNet | Richly-annotated 3D Reconstructions of Indoor Scenes (scan-net.org)](http://www.scan-net.org/)

NYC3Dcars:[NYC3DCars (cornell.edu)](http://nyc3d.cs.cornell.edu/)

Expressive Hands and Faces:[Computer Vision Group - Home (tum.de)](https://vision.in.tum.de/)

TUM数据集:[SMPL-X (mpg.de)](https://smpl-x.is.tue.mpg.de/)

EUROC数据集:[kmavvisualinertialdatasets – ASL Datasets (ethz.ch)](https://projects.asl.ethz.ch/datasets/doku.php?id=kmavvisualinertialdatasets)

2.医疗图像

肺结节数据库LIDC-IDRI:LIDC-IDRI - The Cancer Imaging Archive (TCIA) Public Access - Cancer Imaging Archive Wiki

乳腺图像数据库DDSM MIAS:http://deckard.mc.duke.edu/ddsm_sql/book1.html

医学图像问答:Medical Image Format FAQ

ISBI:Challenges - Grand Challenge

3.网上数据集汇总链接

各领域近千条数据集公开,你要的这里都有

1、Kaggle竞赛数据集
2、自然语言处理
3、图像数据
4、推荐系统
5、金融
6、交通
7、商业
8、医疗健康
9、视频数据
10、音频数据
11、文本、评价、回答数据集合
12、科研
13、其他数据集综合

1、Kaggle竞赛数据集

  1. 书籍推荐数据集(goodreads/上万图书/百万评价)【Kaggle】https://www.kaggle.com/zygmunt/goodbooks-10k
  2. 带有预期点数和获胜概率的NFL比赛详情数据集(2009-2016)【Kaggle】https://www.kaggle.com/maxhorowitz/nflplaybyplay2009to2016
  3. HackerNews数据集(2006年以来约1/4文章) 【Kaggle】https://www.kaggle.com/hacker-news/hacker-news-corpus
  4. 酒店评价数据集【Kaggle】https://www.kaggle.com/datafiniti/hotel-reviews
  5. 1950年以来NBA球员状态&表现数据集【Kaggle】https://www.kaggle.com/drgilermo/nba-players-stats
  6. 【Kaggle竞赛】人脸关键点标定竞赛数据:https://www.kaggle.com/c/facial-keypoints-detection
  7. 【Kaggle竞赛】根据手机应用软件使用行为预测用户性别年龄竞赛数据:http://dataju.cn/Dataju/web/datasetInstanceDetail/332
  8. 【Kaggle竞赛】DSTL 卫星图像识别竞赛数据:https://www.kaggle.com/c/dstl-satellite-imagery-feature-detection
  9. 【Kaggle竞赛】猫和狗图像分类数据:https://www.kaggle.com/c/dogs-vs-cats-redux-kernels-edition
  10. 【Kaggle竞赛】根据安检人体扫描成像预测威胁竞赛:https://www.kaggle.com/c/passenger-screening-algorithm-challenge
  11. 【Kaggle竞赛】泰坦尼克灾难数据:https://www.kaggle.com/c/titanic
  12. 【Kaggle竞赛】费城犯罪记录数据:https://www.kaggle.com/mchirico/philadelphiacrimedata
  13. 【Kaggle竞赛】广告实时竞价数据:https://www.kaggle.com/zurfer/rtb
  14. 【Kaggle竞赛】新闻和网页内容推荐及点击竞赛:https://www.kaggle.com/c/outbrain-click-prediction
  15. 【Kaggle数据】IMDB五千部电影数据:https://www.kaggle.com/deepmatrix/imdb-5000-movie-dataset
  16. 【Kaagle数据】欧洲足球运动员赛事表现数据:https://www.kaggle.com/hugomathien/soccer
  17. 【Kaagle数据】世界各国经济发展数据:https://www.kaggle.com/worldbank/world-development-indicators
  18. 开普勒太空望远镜深空星球光强时序数据集【Kaggle】https://www.kaggle.com/keplersmachines/kepler-labelled-time-series-data
  19. 巴基斯坦无人机袭击数据集(2004-2016)【Kaggle】https://www.kaggle.com/zusmani/pakistandroneattacks
  20. 墨尔本房屋市场数据集【Kaggle】https://www.kaggle.com/anthonypino/melbourne-housing-market
  21. 1789-2016历任美国总统签署行政命令数据集【Kaggle】https://www.kaggle.com/nationalarchives/executive-orders
  22. 来自Stack Overflow平台的Python语言问答数据集【Kaggle】https://www.kaggle.com/stackoverflow/pythonquestions
  23. 来自Stack Overflow品台的R语言问答数据集【Kaggle】https://www.kaggle.com/stackoverflow/rquestions
  24. 每日海冰范围数据集【Kaggle】https://www.kaggle.com/nsidcorg/daily-sea-ice-extent-data
  25. NIPS(1987-2016)论文数据集【Kaggle】 https://www.kaggle.com/benhamner/nips-papers
  26. 美国股票新闻数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/220
  27. 美国医疗保险市场数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/225
  28. 美国金融客户投诉数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/229
  29. Lending Club 网贷违约数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/206
  30. 信用卡欺诈数据【Kaggle 数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/206
  31. 美国股票数据XBRL【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/214
  32. 纽约股票交易所数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/214
  33. 贷款违约预测竞赛数据【Kaggle竞赛】http://dataju.cn/Dataju/web/datasetInstanceDetail/249
  34. Zillow 网站房地产价值预测竞赛数据【Kaggle竞赛】 http://dataju.cn/Dataju/web/datasetInstanceDetail/249
  35. Sberbank 俄罗斯房地产价值预测竞赛数据【Kaggle竞赛】 http://dataju.cn/Dataju/web/datasetInstanceDetail/266
  36. Homesite 保险定价竞赛数据【Kaggle竞赛】 http://dataju.cn/Dataju/web/datasetInstanceDetail/336
  37. Winton 股票回报率预测竞赛数据【Kaggle竞赛】 http://dataju.cn/Dataju/web/datasetInstanceDetail/347?match
  38. 【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/324
  39. Amazon 无锁手机评论数据http://dataju.cn/Dataju/web/datasetInstanceDetail/349
  40. 【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/364
  41. 【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/207
  42. Kaggle 各项竞赛情况数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/207
  43. Bosch 生产流水线降低次品率竞赛数据【Kaggle竞赛】http://dataju.cn/Dataju/web/datasetInstanceDetail/208
  44. 在线广告实时竞价数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/337
  45. 购物车商品关联竞赛数据【Kaggle竞赛】 http://dataju.cn/Dataju/web/datasetInstanceDetail/335
  46. Airbnb 新用户的民宿预定预测竞赛数据【Kaggle竞赛】 http://dataju.cn/Dataju/web/datasetInstanceDetail/333
  47. 食物营养成分数据 【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/80
  48. EGG 大脑电波形状数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/79
  49. 某人基因序列数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/121
  50. 癌症CT影像数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/242
  51. 软组织肉瘤CT图像数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/124
  52. 猫和狗分类识别竞赛数据【Kaggle竞赛】http://dataju.cn/Dataju/web/datasetInstanceDetail/318
  53. DSTL 卫星图像识别竞赛数据【Kaggle竞赛】http://dataju.cn/Dataju/web/datasetInstanceDetail/328
  54. 根据手机应用软件使用行为预测用户性别年龄竞赛数据【Kaggle竞赛】 http://dataju.cn/Dataju/web/datasetInstanceDetail/332
  55. 人脸关键点标定竞赛数据【Kaggle竞赛】 http://dataju.cn/Dataju/web/datasetInstanceDetail/331
  56. Kaggle竞赛数据合辑(部分竞赛数据)http://dataju.cn/Dataju/web/datasetInstanceDetail/368
  57. 波士顿Airbnb 公开数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/209
  58. 世界各国经济发展数据【Kaagle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/202
  59. 世界大学排名芝加哥犯罪数据(2001-2017)【Kaagle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/233
  60. 世界范围显著地震数据(1965-2016)【Kaagle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/231
  61. 美国婴儿姓名数据【Kaagle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/222
  62. 全世界鲨鱼袭击人类数据【Kaagle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/219
  63. 1908年以来空难数据【Kaagle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/218
  64. 2016年美国总统大选数据【Kaagle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/217
  65. 2013年美国社区统计数据【Kaagle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/273
  66. 2014年美国社区统计数据【Kaagle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/274
  67. 2015年美国社区统计数据【Kaagle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/215
  68. 欧洲足球运动员赛事表现数据【Kaagle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/211
  69. 美国环境污染数据【Kaagle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/224
  70. 美国H1-B签证申请数据Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/224
  71. IMDB五千部电影数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/224
  72. 2015年航班延误和取消数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/226
  73. 凶杀案报告数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/216
  74. 人力资源分析数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/259
  75. 美国费城犯罪数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/260
  76. 安然公司邮件数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/262
  77. 历史棒球数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/263
  78. 美联航 Twitter 用户评论数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/264
  79. 波士顿 Airbnb 公开数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/265

2、自然语言处理数据集

  1. RCV1http://dataju.cn/Dataju/web/datasetInstanceDetail/93
  2. 英语 http://dataju.cn/Dataju/web/datasetInstanceDetail/90
  3. 新闻数据http://dataju.cn/Dataju/web/datasetInstanceDetail/78
  4. 自然语言推理(文本蕴含标记)数据集【NYU】https://www.nyu.edu/projects/bowman/multinli/
  5. 20news 英语新闻数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/78
  6. First Quora Release Question Pairs 问答数据http://dataju.cn/Dataju/web/datasetInstanceDetail/94
  7. JRC Nameshttp://dataju.cn/Dataju/web/datasetInstanceDetail/92
  8. 各国语言专有实体名称http://dataju.cn/Dataju/web/datasetInstanceDetail/89
  9. Multi-Domain Sentiment V2.0 http://dataju.cn/Dataju/web/datasetInstanceDetail/205
  10. LETOR 信息检索数据http://dataju.cn/Dataju/web/datasetInstanceDetail/205
  11. Yale Youtube Vedio Text http://dataju.cn/Dataju/web/datasetInstanceDetail/221
  12. 斯坦福问答数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/221
  13. 美国假新闻数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/212
  14. NIPS会议文章信息数据(1987-2016)【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/268
  15. 2016年美国总统选举辩论数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/269
  16. WikiLinks 跨文档指代语料http://dataju.cn/Dataju/web/datasetInstanceDetail/277
  17. European Parliament Proceedings Parallel Corpus 机器翻译数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/285
  18. WikiText 英语语义词库数据http://dataju.cn/Dataju/web/datasetInstanceDetail/272
  19. WMT 2011 News Crawl 机器翻译数据http://dataju.cn/Dataju/web/datasetInstanceDetail/288
  20. Stanford Sentiment Treebank 词汇数据http://dataju.cn/Dataju/web/datasetInstanceDetail/334
  21. 英语语言模型单词预测竞赛数据
  22. http://dataju.cn/Dataju/web/datasetInstanceDetail/201
  23. Apache 软件基金会公开邮件档案:截止到 2011 年 7 月 11 日全部公开可用的 Apache 软件基金会邮件档案。(200 GB) http://aws.amazon.com/de/datasets/apache-software-foundation-public-mail-archives/
  24. 博主原创语料库:包含 2004 年 8 月从 http://blogger.com 网站收集的 19,320 位博主的帖子。681,288 个帖子以及 140 多万字。(298 MB) http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm
  25. 亚马逊美食评论[Kaggle]:包含亚马逊用户在 2012 年 10 月前留下的 568,454 条食评。(240MB) https://www.kaggle.com/snap/amazon-fine-food-reviews
  26. 亚马逊评论:斯坦福收集了 3500 万条亚马逊评论。(11GB) https://snap.stanford.edu/data/web-Amazon.html
  27. ArXiv 上:所有收录论文全文(270GB)+源文件。(190GB) http://arxiv.org/help/bulk_data_s3
  28. ASAP 自动作文评分[Kaggle]:在本次比赛中,有 8 个作文集。每个作文都由一个单独提示所得回答所生成。所选作文长度为 150 到 550 个字不等。部分作文依赖于源信息,而另其他则不是。所有论文都是由 7 年级到 10 年级的学生所写。所有的作文都由人工打分,并采用双评分制。(100MB) https://www.kaggle.com/c/asap-aes/data
  29. ASAP 简答题评分[Kaggle]:每个数据集都是由单个提示所得回答生成的。所选回答的平均长度为 50 个字。某些回答依赖于源信息,而其他则不是。所有回答由 10 年级学生所写。所有回答均为人工打分,并采用双评分制。(35MB) https://www.kaggle.com/c/asap-sas/data
  30. 政治社交媒体分类:按内容分类来自政客的社交媒体消息。(4MB) https://www.crowdflower.com/data-for-everyone/
  31. CLiPS 文体学研究(CSI)语料库:每年扩展两种类型的学生写作:文章和综述。这个语料库的目的主要在于文体学研究,当然也可用于其他研究。(数据集需要申请获得) http://www.clips.uantwerpen.be/datasets/csi-corpus
  32. ClueWeb09 FACC:带有 Freebase 注释的 ClueWeb09。(72GB) http://lemurproject.org/clueweb09/FACC1/
  33. ClueWeb11 FACC:带有 Freebase 注释的 ClueWeb11。(92GB) http://lemurproject.org/clueweb12/FACC1/
  34. 常见爬虫语料库:由超过 50 亿个网页(541TB)爬虫数据构成。 http://aws.amazon.com/de/datasets/common-crawl-corpus/
  35. 康奈尔电影对话语料库(Cornell Movie Dialog Corpus):包含大量丰富的元数据,从原始电影剧本中提取的对话集合:617 部电影,10,292 对电影人物之间的 220,579 次会话交流。(9.5MB) http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html
  36. 企业信息:分类企业在社交媒体上到底谈论了什么的工作。要求志愿者将企业陈述分类为信息(关于公司或其活动的客观陈述),对话(回复用户等)或行动(要求投票或要求用户点击链接等的信息)。(600KB) http://aws.amazon.com/de/datasets/common-crawl-corpus/
  37. Crosswikis:关联英语短语与维基百科文章的数据库。(11GB) http://nlp.stanford.edu/data/crosswikis-data.tar.bz2/
  38. 一个网络社区关于从维基百科中提取结构化信息并使得此信息在网络上可用的共同成果。(17GB) http://aws.amazon.com/de/datasets/dbpedia-3-5-1/?tag=datasets%23keywords% 23encyclopedic
  39. Death Row:自 1984 年以来处决的每个犯人的遗言。(HTML 表格) http://www.tdcj.state.tx.us/death_row/dr_executed_offenders.html
  40. http://Del.icio.us:http://delicious.com 上的 125 万个书签。 http://arvindn.livejournal.com/116137.html
  41. 社交媒体上的灾难推文:1 万条推文,注释了是否涉及灾难事件。(2MB) https://www.crowdflower.com/data-for-everyone/
  42. 经济新闻相关文章:确定新闻文章与美国经济是否相关,如果相关,文章的基调是什么。时间范围从 1951 年到 2014 年。(12MB) https://www.crowdflower.com/data-for-everyone/
  43. 安然公司电子邮件数据:包含 1,227,255 封电子邮件,其中 493,384 个附件覆盖 151 位管理者。(210GB) http://aws.amazon.com/de/datasets/enron-email-data/
  44. 事件注册:免费工具,可以实时访问全球 100,000 个媒体的新闻文章。有 API 接口。(查询工具) http://eventregistry.org/
  45. http://Examiner.com—用新闻头条钓鱼的垃圾邮件[Kaggle]:现已停用的钓鱼网站The Examiner从2010年到2015年发布的3百万众包新闻头条。(200MB) https://www.kaggle.com/therohk/examine-the-examiner
  46. 联邦采购数据中心的联邦合同(http://USASpending.gov):来自 http://USASpending.gov 的联邦采购数据中心所有联邦合同的数据库。(180GB) http://aws.amazon.com/de/datasets/federal-contracts-from-the-federal-procurement-data-center-usaspending-gov/
  47. Flickr 个人分类法:个人标签的树结构数据集。(40MB) http://www.isi.edu/~lerman/downloads/flickr/flickr_taxonomies.html
  48. Freebase 数据库:Freebase 中所有当前事实和推断的数据库。(26GB) http://aws.amazon.com/de/datasets/freebase-data-dump/
  49. Freebase 简单主题库:Freebase 中每个主题中基本的可识别事实的数据库。(5GB) http://aws.amazon.com/de/datasets/freebase-simple-topic-dump/
  50. Freebase 四元库:Freebase 中所有当前事实和推断的数据库[LZ1]。(35GB) http://aws.amazon.com/de/datasets/freebase-quad-dump/
  51. GigaOM Wordpress 挑战赛[Kaggle]:博客文章,元数据,用户喜好。(1.5GB) https://www.kaggle.com/c/predict-wordpress-likes/data
  52. 谷歌图书 n 元语法:也可通过亚马逊 S3 上 hadoop 格式文件获取。(2.2TB) http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
  53. 谷歌网页 5 元语法:含有英文单词的 n 元序列,及其观测频率计数。(24GB) https://catalog.ldc.upenn.edu/LDC2006T13
  54. Gutenberg 电子书清单:带注释电子书清单。(2MB) http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs
  55. 加拿大议会文本块:来自加拿大第 36 届议会正式记录(Hansards)的 130 万标准文本块(句子或更小的片段)。(82MB) http://www.isi.edu/natural-language/download/hansard/
  56. 哈佛图书馆:超过 1,200 万册哈佛图书馆所藏资料的书目记录,包括书籍,期刊,电子资源,手稿,档案资料,乐谱,音频,视频和其他资料。(4GB) http://library.harvard.edu/open-metadata#Harvard-Library-Bibliographic-Dataset
  57. 仇恨言论识别:志愿人查看短文,并确定它是否 a)包含仇恨言论,b)冒犯性的,但没有仇恨言论,或 c)一点也没有冒犯性。包含近 15 千行,每个文本字符串有三个志愿者判断。(3MB) https://github.com/t-davidson/hate-speech-and-offensive-language
  58. 希拉里克林顿的电子邮件[Kaggle]:整理了近 7,000 页克林顿的电子邮件。(12MB) https://www.kaggle.com/kaggle/hillary-clinton-emails
  59. 家得宝公司产品搜索关联[Kaggle]:包含家得宝公司网站的许多产品和客户搜索条款。挑战是预测搜索条目组合和产品的相关性分数。为了创建真实标签,家得宝公司将搜索/产品配对众包给多个评分者打分。(65MB) https://www.kaggle.com/c/home-depot-product-search-relevance/data
  60. 确定文本中的关键短语:问题/答案对和文本组成;判断上下文文本是否与问题/答案相关。(8MB) https://www.crowdflower.com/data-for-everyone/
  61. 美国电视节目‘危险’:216930 个过去出现在‘危险’节目的问题合集。(53MB) http://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/
  62. 200k 英语明文笑话:208000 种不同来源的明文笑话存档。 https://github.com/taivop/joke-dataset
  63. 欧洲语言机器翻译。(612MB) http://statmt.org/wmt11/translation-task.html#download
  64. 材料安全数据表:230000 材料安全数据表。(3GB) http://aws.amazon.com/de/datasets/material-safety-data-sheets/
  65. 百万新闻头条-澳大利亚 ABC[Kaggle]:由澳大利亚 ABC 新闻发布的从 2003 到 2017 年的 130 万新闻。(56MB) https://www.kaggle.com/therohk/million-headlines
  66. MCTest:可免费使用的 660 个故事集和相关问题,可用于研究文本机器理解、问答。(1MB) http://research.microsoft.com/en-us/um/redmond/projects/mctest/index.html
  67. Negra:德国报纸文本的语法标注语料库。可供所有大学及非营利机构免费使用。需要签署协议并发送申请才能获得。 http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/negra-corpus.html
  68. 新闻头条-印度时报[Kaggle]:印度时报发表的从 2001 到 2017 年的 270 万类新闻头条。(185MB) https://www.crowdflower.com/data-for-everyone/
  69. 新闻文章/维基百科页面配对:志愿者阅读一篇短文,被问及最匹配的两篇维基百科文章是哪一篇。(6MB) https://www.kaggle.com/benhamner/nips-2015-papers/version/2
  70. 2015 NIPS 论文(版本 2)[Kaggle]:所有 2015 年 nips 论文全文。(335MB) https://www.kaggle.com/benhamner/nips-2015-papers/version/2
  71. 纽约时报脸谱网数据:所有纽约时报在脸谱网的帖子。(5MB) http://minimaxir.com/2015/07/facebook-scraper/
  72. 全球新闻一周供稿[Kaggle]:在 2017 年 8 月的一周,用 20 多种语言全球发表的 140 万篇新闻事件数据集。(115MB) https://www.kaggle.com/therohk/global-news-week
  73. 句子/概念对的正确性:志愿者读关于两个概念的句子。例如,“狗是一种动物”,或者“船长可以和主人有同样的意思”,然后他们被问到这个句子是否正确,并将其 1-5 评级。(700KB) https://www.crowdflower.com/data-for-everyone/
  74. 公开图书馆数据库:公开图书馆中所有记录的修改合集。(16GB) https://openlibrary.org/developers/dumps
  75. 人物语料库:收集了作者文章风格和个性预测的实验。由 145 名学生的 145 篇荷兰语文章组成。(获得需要申请) http://www.clips.uantwerpen.be/datasets/personae-corpus
  76. Reddit 评论:截至 2015 年 7 月,reddit 论坛所有公开的评论。共计 17 亿条评论。(250GB) https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/
  77. Reddit 评论(2015 年 5 月):Kaggle 子数据集。(8GB) https://www.kaggle.com/reddit/reddit-comments-may-2015
  78. Reddit 提交语料库:2006 年 1 月-2015 年 8 月 31 日所有公开可得的 Reddit 提交内容。(42GB) https://www.reddit.com/r/datasets/comments/3mg812/full_reddit_submission_corpus_now_available_2006/
  79. 路透社语料库:一个包含路透社新闻报道的数据集,用于自然语言处理的研究开发、信息检索和机器学习系统。该语料库又被称为“路透社语录 1”或 RCV1,它远远大于原来在文本分类中被广泛使用的著名的路透社 21578 数据集。该语料库数据需要通过签署协议和发送邮件获取。(2.5GB) https://trec.nist.gov/data/reuters/reuters.html
  80. SaudiNewsNet:31030 条从不同沙特阿拉伯的网络报纸上摘取的标题和元数据。(2MB) https://github.com/ParallelMazen/SaudiNewsNet
  81. 垃圾短信数据集:5574 条被标记为合法/不合法的、未经编码的真实英文短信消息。(200KB) http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/
  82. 《南方公园》数据集:csv 格式文件,包含季、集、角色和台词的剧本信息。(3.6MB) https://github.com/BobAdamsEE/SouthParkData
  83. Stackoverflow:730 万条 stackoverflow 问题和其他 stackexchange(问答工具)上的问答。 http://data.stackexchange.com/
  84. Twitter 的 Cheng-Caverlee-lee 用户定位数据集:2009 年 9 月-2010 年 1 月的推文定位。(400MB) https://archive.org/details/twitter_cikm_2010
  85. Twitter 上关于新英格兰爱国者队“放气门”事件的舆情:在 2015 年超级碗比赛前,人们对被放了气的橄榄球以及爱国者队是否存在欺骗行为议论纷纷。该数据集提供了丑闻发生的这段时间里 Twitter 上的舆情,以便评估公众对整个事件的感受。(2MB) https://www.figure-eight.com/data-for-everyone/
  86. Twitter 上对于左倾相关事件的舆情分析:关于堕胎合法化、女权主义、希拉里·克林顿等各种左倾相关事件的推文,推文将根据内容推断被分类为 For(支持)、Against(反对)、Neutral(中立)或 None of the above(以上都不是)。(600KB) https://www.figure-eight.com/data-for-everyone/
  87. Twitter 的 Sentiment140(情感分析数据集):关于品牌/关键词的推文,网站包括论文和研究想法。(77MB) http://help.sentiment140.com/for-students/
  88. Twitter 上关于自动驾驶汽车的舆情分析:贡献者们阅读推文后,将推文里对于自动驾驶的态度分为非常积极、较积极、中立、较消极和非常消极。如果推文与自动驾驶汽车无关,他们也要标记出来。(1MB) https://www.figure-eight.com/data-for-everyone/
  89. Twitter 上定位于东京的推文:20 万条来自东京的推文。(47MB) http://followthehashtag.com/datasets/200000-tokyo-geolocated-tweets-free-twitter-dataset/
  90. Twitter 上定位于英国的推文:17 万条来自英国的推文。(47MB) http://followthehashtag.com/datasets/170000-uk-geolocated-tweets-free-twitter-dataset/
  91. Twitter 上定位于美国的推文:20 万条来自美国的推文。(45MB) http://followthehashtag.com/datasets/free-twitter-dataset-usa-200000-free-usa-tweets/
  92. Twitter 上对于美国各大航空公司的态度(Kaggle 数据集):这是一个对于美国各大航空公司存在问题的情感分析任务。该数据集爬取了 2015 年 2 月的推文,贡献者们将其分类为积极、消极和中立,对于那些分类为消极态度的推文,还会给出原因(例如“飞机晚点”或“服务态度差”等)。(2.5MB) https://www.kaggle.com/crowdflower/twitter-airline-sentiment
  93. 基于新闻标题的美国经济表现:根据新闻标题头条和摘要,对新闻和美国经济的相关性进行排序。(5MB) https://www.figure-eight.com/data-for-everyone/
  94. 城市词典(美国在线俚语词典)里的单词和定义:一个经过清洗的 CSV 语料库,包含截至 2016 年 5 月的城市词典内所有 260 万个词汇、定义、作者和投票情况。(238MB) https://www.kaggle.com/therohk/urban-dictionary-words-dataset
  95. 亚马逊的 Wesbury Lab Usenet 语料库:2005-2010 的 47,860 个英文新闻组的邮件匿名汇编。(40GB) http://aws.amazon.com/de/datasets/the-westburylab-usenet-corpus/
  96. 维基百科的 Wesbury Lab 语料库:2010 年 4 月维基百科英文部分中所有文章的快照。网站详细描述了数据是如何被处理的——即去除所有链接和不相关的材料(如导航文本等)。语料库是未经标记的原始文本,它被用于Stanford NLP。 http://www.psych.ualberta.ca/~westburylab/downloads/westburylab.wikicorp.download.html
  97. Stanford NLP 跳转的链接: https://scholar.google.com/scholar?oi=bibs&hl=en&cites=9060444488071171966&as_sdt=5
  98. 维基百科提取(WEX):经处理后的英文版维基百科。(66GB) http://aws.amazon.com/de/datasets/wikipedia-extraction-wex/
  99. 维基百科的 XML 格式数据:所有维基媒体(Wikimedia)的完整复制,以维基文本元(wikitext source)和元数据的形式嵌入到 XML 中。(500GB) http://aws.amazon.com/de/datasets/wikipedia-xml-data/
  100. 雅虎问答中的综合问题与答案:截至 2007 年 10 月 25 日的雅虎问答语料库,包含 4,483,032 条问答。(3.6GB) http://webscope.sandbox.yahoo.com/catalog.php?datatype=l
  101. 雅虎问答中用法语提问的问题:2006-2015 年雅虎问答语料库的子数据集,包含 170 万条法语问答。(3.8GB) https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
  102. 雅虎问答中的关于“如何做”的问题[LZ2]:根据语言属性从 2007 年 10 月 25 日雅虎问答语料库选出的子集,包含 142,627 条问答。(104MB) https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
  103. 雅虎从公开网页中提取的 HTML 格式页面:包含少量复杂 HTML 格式的页面和 267 万个复杂格式的页面。(50+ GB) https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
  104. 雅虎从公开网页页面中提取的元数据:1 亿个 RDF 格式数据的三元组。(2GB) https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
  105. 雅虎的 N 元语法模型表示(N-Gram Representations)数据:该数据集包含 N 元语法表示数据,这些数据可以用于 IR 研究中常见的查询重写(query rewriting)任务,也可以用于 NLP 研究中常见的词语和句子相似性分析任务。(2.6GB) https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
  106. 雅虎的 N 元语法模型数据(版本 2.0):n 元语法模型数据(n=1-5),从一个包含 1460 万个文档(1.26 亿条不重复的语句,34 亿个运行词)的语料库中提取,这些文档是从 12000 个面向新闻的站点里爬取的。(12 GB) https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
  107. 雅虎搜索日志的相关性判断:匿名雅虎搜索日志的相关性判断。(1.3GB) https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
  108. 雅虎的英语维基百科语义注释快照:包含从 2006 年 11 月 4 日开始的经一些公开的 NLP 工具处理后的英文维基百科,共有 1,490,688 个条目。(6GB) https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
  109. Yelp:包含餐厅排名和 220 万条评论。 https://www.yelp.com/dataset
  110. Youtube:170 万条 YouTube 视频描述。(torrent 格式) https://www.reddit.com/r/datasets/comments/3gegdz/17_millions_youtube_videos_description/
  111. 优秀的公开 NLP 数据集(包含更多清单) https://github.com/awesomedata/awesome-public-datasets
  112. 亚马逊公开数据集 https://aws.amazon.com/de/datasets/
  113. CrowdFlower 数据集(包含大量小调查和对特定任务以众包方式获得的数据) https://www.crowdflower.com/data-for-everyone/
  114. Kaggle 数据集 https://www.kaggle.com/datasets
  115. Kaggle 比赛(请确保这些 kaggle 比赛数据可以在比赛之外使用) https://www.kaggle.com/competitions
  116. 开放图书馆 https://openlibrary.org/developers/dumps
  117. Quora(大部分为已标注好的语料库) https://www.quora.com/Datasets-What-are-the-major-text-corpora-used-by-computational-linguists-and-natural-language-processing-researchers-and-what-are-the-characteristics-biases-of-each-corpus
  118. reddit 数据集(无数个数据集,大部分由业余爱好者爬取,但数据的整理和许可可能不够规范) https://www.reddit.com/r/datasets
  119. http://Rs.io:也是一个很长的数据集清单 http://rs.io/100-interesting-data-sets-for-statistics/
  120. Stackexchange:公开数据 http://opendata.stackexchange.com/
  121. 斯坦福 NLP 组(大部分为已标注的语料库和 TreeBanks,以及实用的 NLP 工具) https://nlp.stanford.edu/links/statnlp.html
  122. 雅虎研究院的数据集汇总 Webscope(还包含了使用了这些数据的论文列表) http://webscope.sandbox.yahoo.com/
  123. 自然语言处理(NLP)数据集列表【Nicolas Iderhoff】 https://github.com/niderhoff/nlp-datasets
  124. NLVR:自然语言基础数据集(对象分组、数量、比较及空间关系推理) http://lic.nlp.cornell.edu/nlvr/
  125. Stanford NLP发布新的多轮、跨域、任务导向对话数据集【Mihail Eric】 https://github.com/keunwoochoi/YouTube-music-video-5M
  126. 《数据之美》自然语言数据集/代码 http://t.cn/hBOTM4
  127. 大型众包关系数据库自然语言查询语义解析数据集(8万+查询样本) http://t.cn/RNMr09n

3、各类/各场景图像数据/综合图像

  1. Visual Genome 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/311
  2. Visual7w 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/315
  3. COCO 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/316
  4. SUFR 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/317
  5. ILSVRC 2014 训练数据(ImageNet的一部分) http://dataju.cn/Dataju/web/datasetInstanceDetail/369
  6. PASCAL Visual Object Classes 2012 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/85
  7. PASCAL Visual Object Classes 2011 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/107
  8. PASCAL Visual Object Classes 2010 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/51
  9. 80 Million Tiny Image 图像数据【数据太大仅有介绍】 http://dataju.cn/Dataju/web/datasetInstanceDetail/240
  10. ImageNet【数据太大仅有介绍】http://dataju.cn/Dataju/web/datasetInstanceDetail/55
  11. Google Open Images【数据太大仅有介绍】 http://dataju.cn/Dataju/web/datasetInstanceDetail/40

场景图像

  1. Street Scences 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/45
  2. Places2 场景图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/48
  3. (Stanford)69G大规模无人机(校园)图像数据集【Stanford】http://cvgl.stanford.edu/projects/uav_data/
  4. 发布ADE20K场景感知/解析/分割/多目标识别数据集【MIT】https://groups.csail.mit.edu/vision/datasets/ADE20K/
  5. 多模态二元行为数据集【GaTech】 http://www.cbi.gatech.edu/mmdb/
  6. Berkeley图像分割数据集BSDS500【Berkeley】https://www2.eecs.berkeley.edu/Research/Projects/CS/vision/grouping/resources.html
  7. UCF Google Street View 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/138
  8. SUN 场景图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/138
  9. The Celebrity in Places 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/83

Web图像标签

  1. HARRISON 社交标签图像 http://dataju.cn/Dataju/web/datasetInstanceDetail/183
  2. NUS-WIDE 标签图像http://dataju.cn/Dataju/web/datasetInstanceDetail/74
  3. Visual Synset 标签图像http://dataju.cn/Dataju/web/datasetInstanceDetail/112
  4. Animals With Attributes 标签图像http://dataju.cn/Dataju/web/datasetInstanceDetail/160

人形轮廓图像

  1. 人脸素描数据集【CUHK】http://mmlab.ie.cuhk.edu.hk/archive/facesketch.html
  2. MPII Human Shapehttp://dataju.cn/Dataju/web/datasetInstanceDetail/234
  3. 人体轮廓数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/173
  4. Biwi Kinect Head Pose 头部姿势数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/52
  5. 上半身人像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/52
  6. INRIA Person 数据集 http://dataju.cn/Dataju/web/datasetInstanceDetail/235

视觉文字识别图像

  1. Street View House Number 门牌号图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/236
  2. MNIST 手写数字识别图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/253
  3. 3D MNIST 数字识别图像数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/129
  4. MediaTeam Document 文档影印和内容数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/129
  5. Text Recognition 文字图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/110
  6. NIST Handprinted Forms and Characters 手写英文字符数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/49
  7. NIST Structured Forms Reference Set of Binary Images http://dataju.cn/Dataju/web/datasetInstanceDetail/73
  8. (SFRS) 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/47
  9. NIST Structured Forms Reference Set of Binary Images http://dataju.cn/Dataju/web/datasetInstanceDetail/23
  10. (SFRS) II 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/203

特定一类事物图像

  1. 著名的猫图像标注数据http://dataju.cn/Dataju/web/datasetInstanceDetail/128
  2. Caltech-UCSDhttp://dataju.cn/Dataju/web/datasetInstanceDetail/176
  3. Birds200 鸟类图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/278
  4. Stanford Car 汽车图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/294
  5. Cars 汽车图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/295
  6. MIT Cars 汽车图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/41
  7. Stanford Cars 汽车图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/105
  8. Food-101 美食图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/106
  9. 17_Category_Flowerhttp://dataju.cn/Dataju/web/datasetInstanceDetail/106
  10. 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/254
  11. 102_Category_Flowerhttp://dataju.cn/Dataju/web/datasetInstanceDetail/255
  12. 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/109
  13. UCI Folio Leaf 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/114
  14. Labeled Fisheshttp://dataju.cn/Dataju/web/datasetInstanceDetail/115
  15. in the Wild 鱼类图像http://dataju.cn/Dataju/web/datasetInstanceDetail/60
  16. 美国 Yelp 点评网站酒店照片http://dataju.cn/Dataju/web/datasetInstanceDetail/61
  17. CMU-Oxfordhttp://dataju.cn/Dataju/web/datasetInstanceDetail/63
  18. Sculpture 塑像雕像图像 http://dataju.cn/Dataju/web/datasetInstanceDetail/174
  19. Oxford-IIIT Pet 宠物图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/256
  20. Naturehttp://dataju.cn/Dataju/web/datasetInstanceDetail/301
  21. Conservancy Fisheries Monitoring 过度捕捞监控图像数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/118
  22. 宠物图片(分割)数据集【Oxford】http://www.robots.ox.ac.uk/~vgg/data/pets/

材质纹理图像

  1. CURET 纹理材质图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/111
  2. ETHZ Synthesizability 纹理图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/127
  3. KTH-TIPS 纹理材质图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/172
  4. Describable Textures 纹理图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/71

物体分类图像

  1. COIL-20 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/62
  2. COIL-100 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/70
  3. Caltech-101 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/54
  4. Caltech-256 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/46
  5. CIFAR-10 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/42
  6. CIFAR-100 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/53
  7. STL-10 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/72
  8. LabelMe_12_50k http://dataju.cn/Dataju/web/datasetInstanceDetail/72
  9. 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/69
  10. NORB v1.0 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/117
  11. NEC Toy Animal 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/237
  12. iCubWorld 图像分类数据http://dataju.cn/Dataju/web/datasetInstanceDetail/238
  13. Multi-class 图像分类数据http://dataju.cn/Dataju/web/datasetInstanceDetail/239
  14. GRAZ 图像分类数据http://dataju.cn/Dataju/web/datasetInstanceDetail/108

人脸图像

  1. IMDB-WIKI 500k+ 人脸图像、年龄性别数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/68
  2. Labeled Faces in the Wild 人脸数据http://dataju.cn/Dataju/web/datasetInstanceDetail/50
  3. Extended Yale Face Database B 人脸数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/131
  4. Bao Face 人脸数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/87
  5. DC-IGN 论文人脸数据http://dataju.cn/Dataju/web/datasetInstanceDetail/119
  6. 300 Face in Wild 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/120
  7. BioID Face 人脸数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/122
  8. CMU Frontal Face Imageshttp://dataju.cn/Dataju/web/datasetInstanceDetail/123
  9. FDDB_Face Detection Data Set and Benchmark http://dataju.cn/Dataju/web/datasetInstanceDetail/130
  10. NIST Mugshot Identification Database http://dataju.cn/Dataju/web/datasetInstanceDetail/140
  11. Faces in the Wild 人脸数据http://dataju.cn/Dataju/web/datasetInstanceDetail/170
  12. CelebA 名人人脸图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/175
  13. VGG Face 人脸图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/189
  14. Caltech 10k Web Faces 人脸图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/125

姿势动作图像

  1. HMDB_a large human motion database http://dataju.cn/Dataju/web/datasetInstanceDetail/126
  2. Human Actions and Scenes Dataset http://dataju.cn/Dataju/web/datasetInstanceDetail/177
  3. Buffy Stickmen V3 人体轮廓识别图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/178
  4. Human Pose Evaluator 人体轮廓识别图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/179
  5. Buffy pose 人类姿势图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/181
  6. VGG Human Pose Estimation 姿势图像标注数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/197

指纹识别图像

  1. NIST FIGS 指纹识别数据http://dataju.cn/Dataju/web/datasetInstanceDetail/281
  2. NIST Supplemental Fingerprint Card Data (SFCD) 指纹识别数据http://dataju.cn/Dataju/web/datasetInstanceDetail/280
  3. NIST Plain and Rolled Images from Paired Fingerprint Cards http://dataju.cn/Dataju/web/datasetInstanceDetail/279
  4. in 500 pixels per inch 指纹识别数据http://dataju.cn/Dataju/web/datasetInstanceDetail/77
  5. NIST Plain and Rolled Images from Paired Fingerprint Cards http://dataju.cn/Dataju/web/datasetInstanceDetail/289
  6. 1000 pixels per inch 指纹识别数据http://dataju.cn/Dataju/web/datasetInstanceDetail/132

其他图像数据

  1. Visual Question Answering V1.0 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/84
  2. Visual Question Answering V2.0 图像数据
  3. http://dataju.cn/Dataju/web/datasetInstanceDetail/241
  4. Fashion-MNIST风格服饰图像数据集【肖涵】
  5. https://github.com/zalandoresearch/fashion-mnist
  6. 日本漫画数据集Manga109
  7. http://dl.acm.org/citation.cfm?doid=3011549.3011551
  8. Pixiv(着色)图片数据集【Jerry Li】
  9. https://github.com/jerryli27/pixiv_dataset
  10. Quick, Draw!简笔画涂鸦数据集
  11. https://github.com/googlecreativelab/quickdraw-dataset
  12. 简笔画涂鸦数据集【hardmaru】
  13. https://github.com/hardmaru/sketch-rnn-datasets
  14. 大规模街道级图片(分割)数据集【Peter Kontschieder】
  15. http://blog.mapillary.com/product/2017/05/03/mapillary-vistas-dataset.html
  16. 大规模日语图片描述数据集
  17. https://github.com/STAIR-Lab-CIT/STAIR-captions
  18. Cityscapes街景语义分割数据集(50城30类5k细标20k粗标图片及标记视频)
  19. https://github.com/mcordts/cityscapess
  20. (街头)时尚服饰数据集(2000+标注图片)
  21. https://github.com/bearpaw/clothing-co-parsing
  22. 计算机视觉合成数据集/工具大列表【unrealcv】

https://github.com/unrealcv/synthetic-computer-vision

常用图像数据集大全

(分类,跟踪,分割,检测等)

1. 搜狗实验室数据集:

http://www.sogou.com/labs/dl/p.html

互联网图片库来自sogou图片搜索所索引的部分数据。其中收集了包括人物、动物、建筑、机械、风景、运动等类别,总数高达2,836,535张图片。对于每张图片,数据集中给出了图片的原图、缩略图、所在网页以及所在网页中的相关文本。200多G

2. http://www.imageclef.org/

IMAGECLEF致力于位图片相关领域提供一个基准(检索、分类、标注等等) Cross Language Evaluation Forum (CLEF) 。从2003年开始每年举行一次比赛.

http://staff.science.uva.nl/~xirong/index.php?n=Main.Dataset

4、推荐系统数据集

  1. Netflix 电影评价数据http://dataju.cn/Dataju/web/datasetInstanceDetail/330
  2. MovieLens 20m 电影推荐数据集 http://dataju.cn/Dataju/web/datasetInstanceDetail/329
  3. WikiLens http://dataju.cn/Dataju/web/datasetInstanceDetail/227
  4. Jester http://dataju.cn/Dataju/web/datasetInstanceDetail/350
  5. HetRec2011 http://dataju.cn/Dataju/web/datasetInstanceDetail/354
  6. Book Crossing http://dataju.cn/Dataju/web/datasetInstanceDetail/32
  7. Large Movie Review http://dataju.cn/Dataju/web/datasetInstanceDetail/116
  8. Retailrocket 商品评论和推荐数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/97
  9. MovieLens https://grouplens.org/datasets/movielens/
  10. Jesterhttp://www2.informatik.uni-freiburg.de/~cziegler/BX/
  11. Book-Crossingshttp://www2.informatik.uni-freiburg.de/~cziegler/BX/
  12. Last.fmhttps://grouplens.org/datasets/hetrec-2011/
  13. OpenStreetMap http://planet.openstreetmap.org/planet/full-history/
  14. Python Git Repositories https://github.com/lab41/hermes

5、金融数据集

  1. 美国劳工部统计局官方发布数据:http://dataju.cn/Dataju/web/datasetInstanceDetail/139
  2. 沪深股票除权除息、配股增发全量数据,截止 2016.12.31 http://dataju.cn/Dataju/web/datasetInstanceDetail/344
  3. 上证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,1260支股票 http://dataju.cn/Dataju/web/datasetInstanceDetail/340
  4. 深证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,466支股票 http://dataju.cn/Dataju/web/datasetInstanceDetail/341
  5. 深证中小板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,852支股票http://dataju.cn/Dataju/web/datasetInstanceDetail/342
  6. 深证创业板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,636支股票 http://dataju.cn/Dataju/web/datasetInstanceDetail/343
  7. 上证A股日线数据,1999.12.09 至 2016.06.08,前复权,1095支股票 http://dataju.cn/Dataju/web/datasetInstanceDetail/37
  8. 深证A股日线数据,1999.12.09 至 2016.06.08,前复权,1766支股票 http://dataju.cn/Dataju/web/datasetInstanceDetail/38
  9. 深证创业板日线数据,1999.12.09 至 2016.06.08,前复权,510支股票 http://dataju.cn/Dataju/web/datasetInstanceDetail/39
  10. MT4平台外汇交易历史数据http://dataju.cn/Dataju/web/datasetInstanceDetail/43
  11. Forex平台外汇交易历史数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/67
  12. 几组外汇交易逐笔(Ticks)数据http://dataju.cn/Dataju/web/datasetInstanceDetail/44

6、交通数据集

  1. 2013年纽约出租车行驶数据http://dataju.cn/Dataju/web/datasetInstanceDetail/348
  2. 2013年芝加哥出租车行驶数据http://dataju.cn/Dataju/web/datasetInstanceDetail/355
  3. Udacity自动驾驶数据http://dataju.cn/Dataju/web/datasetInstanceDetail/356
  4. 纽约 Uber 接客数据 【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/76
  5. 英国车祸数据(2005-2015)【Kaagle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/323
  6. 芝加哥汽车超速数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/86
  7. KITTI 自动驾驶任务数据【数据太大仅有部分】 http://dataju.cn/Dataju/web/datasetInstanceDetail/210
  8. Cityscapes 场景标注数据【数据太大仅有部分】 http://dataju.cn/Dataju/web/datasetInstanceDetail/210
  9. 德国交通标志识别数据http://dataju.cn/Dataju/web/datasetInstanceDetail/232
  10. 交通信号识别数据http://dataju.cn/Dataju/web/datasetInstanceDetail/228
  11. 芝加哥Divvy共享自行车骑行数据(2013年至今) http://dataju.cn/Dataju/web/datasetInstanceDetail/228
  12. 美国查塔努加市共享单车骑行数据http://dataju.cn/Dataju/web/datasetInstanceDetail/270
  13. Capital 共享单车骑行数据知乎专栏 - 随心写作,自由表达 - 知乎
  14. Bay Area 共享单车骑行数据http://dataju.cn/Dataju/web/datasetInstanceDetail/338
  15. Nice Ride 共享单车骑行数据http://dataju.cn/Dataju/web/datasetInstanceDetail/339
  16. 花旗银行共享单车骑行数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/325
  17. 运用卫星数据跟踪亚马逊热带雨林中的人类轨迹竞赛【Kaggle竞赛】 http://dataju.cn/Dataju/web/datasetInstanceDetail/358
  18. 纽约出租车管理委员会官方的乘车数据(2009年-2016年) http://dataju.cn/Dataju/web/datasetInstanceDetail/359

7、商业数据

  1. Airbnb 开放的民宿信息和住客评论数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/360
  2. Amazon 食品评论数据http://dataju.cn/Dataju/web/datasetInstanceDetail/361
  3. 美国视频游戏销售和评价数据http://dataju.cn/Dataju/web/datasetInstanceDetail/309
  4. 预测公寓租金竞赛数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/208
  5. 广告点击预测竞赛数据http://dataju.cn/Dataju/web/datasetInstanceDetail/230
  6. 餐厅营业收入预测建模竞赛http://dataju.cn/Dataju/web/datasetInstanceDetail/230
  7. 银行产品推荐竞赛数据http://dataju.cn/Dataju/web/datasetInstanceDetail/213
  8. 网站用户推荐点击预测竞赛数据http://dataju.cn/Dataju/web/datasetInstanceDetail/319

8、医疗数据

  1. 人识别物体时大脑核磁共振影像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/99
  2. 人理解单词时大脑核磁共振影像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/101
  3. 心脏病心房图像及标注数据http://dataju.cn/Dataju/web/datasetInstanceDetail/100
  4. 细胞病理识别http://dataju.cn/Dataju/web/datasetInstanceDetail/98
  5. FIRE 视网膜眼底病变图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/290
  6. 美国国家健康与服务部-国家癌症研究所发起的癌症数据仓库介绍【仅有介绍】 http://dataju.cn/Dataju/web/datasetInstanceDetail/250
  7. Data Science Bowl 2017 肺癌识别竞赛数据【数据太大仅有介绍】 http://dataju.cn/Dataju/web/datasetInstanceDetail/258
  8. TCGA-LUAD 肺癌CT图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/261
  9. RIDER Lung CT 肺癌CT影像http://dataju.cn/Dataju/web/datasetInstanceDetail/275
  10. TCGA-COAD癌症CT影像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/284
  11. TCIA-TCGA-OV 癌症CT影像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/283
  12. TCIA RIDER NEURO 癌症MRI影像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/287
  13. QIN Beast 乳腺癌MRI影像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/291

9、视频数据(人类动作、目标检测、密集人群等)

  1. DAVIS_Densely Annotated Video Segmentation 数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/147
  2. YouTube-8M 视频数据集【数据太大仅有介绍】http://dataju.cn/Dataju/web/datasetInstanceDetail/133
  3. YouTube 网站视频备份【数据太大仅有介绍】 http://dataju.cn/Dataju/web/datasetInstanceDetail/134

人类动作视频

  1. Microsoft Research Action 人类动作视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/144
  2. UCF50 Action Recognition 动作识别数据http://dataju.cn/Dataju/web/datasetInstanceDetail/135
  3. UCF101 Action Recognition 动作识别数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/136
  4. UT-Interaction 人类动作视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/137
  5. UCF iPhone 运动中传感器数据http://dataju.cn/Dataju/web/datasetInstanceDetail/148
  6. UCF YouTube 人类动作视频数据http://dataju.cn/Dataju/web/datasetInstanceDetail/125
  7. UCF Sport 人类动作视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/126
  8. UCF-ARG 人类动作视频数据http://dataju.cn/Dataju/web/datasetInstanceDetail/141
  9. HMDB 人类动作视频http://dataju.cn/Dataju/web/datasetInstanceDetail/157
  10. HOLLYWOOD2 人类行为动作视频数据http://dataju.cn/Dataju/web/datasetInstanceDetail/146
  11. Recognition of human actions 动作视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/244
  12. Motion Capture 动作捕捉视频数据http://dataju.cn/Dataju/web/datasetInstanceDetail/245
  13. SBU Kinect Interaction 肢体动作视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/246

目标检测视频

  1. UCSD Pedestrian 行人视频数据http://dataju.cn/Dataju/web/datasetInstanceDetail/247
  2. Caltech Pedestrian 行人视频数据http://dataju.cn/Dataju/web/datasetInstanceDetail/248
  3. ETH 行人视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/223
  4. INRIA 行人视频数据http://dataju.cn/Dataju/web/datasetInstanceDetail/159
  5. TudBrussels 行人视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/151
  6. Daimler 行人视频数据http://dataju.cn/Dataju/web/datasetInstanceDetail/150
  7. ALOV++ 物体追踪视频数据http://dataju.cn/Dataju/web/datasetInstanceDetail/152

密集人群视频

  1. Crowd Counting 高密度人群图像 http://dataju.cn/Dataju/web/datasetInstanceDetail/156
  2. Crowd Segmentation 高密度人群视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/243
  3. Tracking in High Density Crowds 高密度人群视频 http://dataju.cn/Dataju/web/datasetInstanceDetail/200

其他视频

  1. Fire Detection 视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/186
  2. 大型(50万)LOGO标志数据集 https://data.vision.ee.ethz.ch/cvl/lld/
  3. 4D扫描(60fps移动非刚性物体3D扫描)数据集【D-FAUST】 http://dfaust.is.tue.mpg.de
  4. 基于MNIST的视觉计数合成数据集Counting MNIST http://fomoro.com/tools/counting-mnist/
  5. YouTube MV视频数据集【Keunwoo Choi】https://github.com/keunwoochoi/YouTube-music-video-5M
  6. 动物属性标记数据集【ChristophH. Lampert/Daniel Pucher/JohannesDostal】
  7. http://cvml.ist.ac.at/AwA2/
  8. 俯拍舞蹈视频数据集http://homepages.inf.ed.ac.uk/rbf/CEILIDHDATA/
  9. e-VDS视频数据集 https://engineering.purdue.edu/elab/eVDS/#download
  10. 服饰人像生成模型(&Chictopia10K[HumanParsing]时尚人像解析数据集)【Christoph Lassner/Gerard Pons-Moll/Peter V. Gehler】 http://files.is.tue.mpg.de/classner/gp/
  11. COCO像素级标注数据集 https://github.com/nightrome/cocostuff
  12. PyTorch实现的VOC2012数据集Pixel-wise目标分割【BodoKaiser】 https://github.com/bodokaiser/piwise
  13. Twenty Billion Neurons对象复杂运动与交互视频数据集【Nikita Johnson】 https://www.re-work.co/blog/the-something-something-video-dataset

10、音频数据

  1. Google Audioset 音频数据【数据太大仅有介绍】 http://dataju.cn/Dataju/web/datasetInstanceDetail/164
  2. Sinhala TTS 英语语音识别http://dataju.cn/Dataju/web/datasetInstanceDetail/251
  3. TIMIT 美式英语语音识别数据http://dataju.cn/Dataju/web/datasetInstanceDetail/252
  4. LibriSpeech ASR corpus 语音数据http://dataju.cn/Dataju/web/datasetInstanceDetail/194
  5. Room Impulse Response and Noise 语音数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/191
  6. ALFFA 非洲语音数据http://dataju.cn/Dataju/web/datasetInstanceDetail/96
  7. THUYG-20 维吾尔语语音数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/96
  8. AMI Corpus 语音识别http://dataju.cn/Dataju/web/datasetInstanceDetail/96
  9. NSynth:大规模高质量音符标记音频数据集 https://magenta.tensorflow.org/datasets/nsynth
  10. 鸟叫声数据集【xeno-canto】http://www.xeno-canto.org
  11. (TensorFlow)AudioSet音频事件数据集分类模型GitHub: tensorflow/models/tree/master/audioset

11、文本、评价、回答数据集合

  1. (20万)英文笑话数据集【TaivoPungas】https://github.com/taivop/joke-dataset
  2. 机器学习保险行业问答开放数据集【HainWang】https://github.com/shuzi/insuranceQA
  3. 保险行业问答(QA)数据集【Minwei Feng】https://github.com/shuzi/insuranceQA
  4. 实体/名词语义关系标记数据集【David S. Batista】https://github.com/davidsbatista/Annotated-Semantic-Relationships-Datasets
  5. 2.8万文章/10万问题大规模(英语考试)阅读理解数据集https://github.com/qizhex/RACE_AR_baselines
  6. 错误拼写数据集http://www.dcs.bbk.ac.uk/~ROGER/corpora.html
  7. 文本简化数据集http://www.cs.pomona.edu/~dkauchak/simplification/
  8. 英语词/句/语义框架框架标注数据集FrameNethttps://framenet.icsi.berkeley.edu/fndrupal/
  9. 跨语种/多样式/多粒度文本相似性检测数据集https://github.com/FerreroJeremy/Cross-Language-Dataset
  10. Quora数据集:400000行潜在重复问题http://qim.ec.quoracdn.net/quora_duplicate_questions.tsv
  11. 文本分类数据集http://disi.unitn.it/moschitti/corpora.htm
  12. Frames:Maluuba对话数据集https://datasets.maluuba.com/Frames/dl
  13. 跨域(Amazon商品评论)情感数据集http://www.cs.jhu.edu/~mdredze/datasets/sentiment/
  14. 语义网机器学习系统评价/基准数据集集合 http://dws.informatik.uni-mannheim.de/en/research/a-collection-of-benchmark-datasets-for-ml
  15. 日文木版印刷文字识别数据集http://t.cn/RCZPfYB
  16. 用于评价监督机器学习算法的基准数据集https:// http://github.com/EpistasisLab/penn-ml-benchmarks
  17. 新的YELP数据集:包含470万评论和15.6万商家http://t.cn/RNG6JYi
  18. StackExchange近似/重复问题数据集 http://nlp.cis.unimelb.edu.au/resources/cqadupstack/
  19. AI2科学问答数据集(多选) http://t.cn/RI5liwJ

12、科研数据集

  1. NIPS 2003 属性选择竞赛数据http://dataju.cn/Dataju/web/datasetInstanceDetail/370
  2. 台湾大学林智仁教授处理为 LibSVM 格式的分类建模数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/296
  3. Large-scale 分类建模数据http://dataju.cn/Dataju/web/datasetInstanceDetail/297
  4. 几个UCI 中 large-scale 分类建模数据http://dataju.cn/Dataju/web/datasetInstanceDetail/298
  5. Social Computing http://dataju.cn/Dataju/web/datasetInstanceDetail/299
  6. Data Repository 社交网络数据http://dataju.cn/Dataju/web/datasetInstanceDetail/300

13、社会数据集

  1. 希拉里邮件门泄露邮件http://dataju.cn/Dataju/web/datasetInstanceDetail/267
  2. 芝加哥市2001年以来犯罪记录数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/267
  3. 美国查塔努加市犯罪记录数据(2003年至今) http://dataju.cn/Dataju/web/datasetInstanceDetail/353
  4. 芝加哥街边咖啡厅季节中的人行道咖啡厅许可数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/358
  5. 芝加哥餐馆卫生检查结果数据http://dataju.cn/Dataju/web/datasetInstanceDetail/351
  6. 几个人类运动位置路线GPS数据集(骑行、跑步等)
  7. http://dataju.cn/Dataju/web/datasetInstanceDetail/352

14、其他数据集综合

  1. 数据科学/机器学习数据集汇总https://elitedatascience.com/datasets
  2. CORe50:连续目标识别数据集【VincenzoLomonaco&DavideMaltoni】https://vlomonaco.github.io/core50/
  3. (Matlab)数据集统计分布自动发现【Isabel Valera】
  4. http://proceedings.mlr.press/v70/valera17a.html
  5. (建筑物)损害评估数据集【tsunami】
  6. https://github.com/faiton713/ABCDdataset
  7. IndieWeb社交图谱数据集【IndieWeb】http://www.indiemap.org
  8. DeepMind开源环境/数据集/代码集合【DeepMind】https://deepmind.com/research/open-source/
  9. Wolfram数据集仓库 https://datarepository.wolframcloud.com
  10. 大型音乐分析数据集FMA https://github.com/mdeff/fma
  11. (300万)Instacart在线杂货购物数据集【Jeremy Stanley】 https://tech.instacart.com/3-million-instacart-orders-open-sourced-d40d29ead6f2
  12. 用于欺诈检测的合成财务数据集【TESTIMON】 https://www.kaggle.com/ntnu-testimon/paysim1
  13. LIBSVM格式分类/回归/多标签/字符串数据集 https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary.html
  14. 笔记本电脑用logistic回归拟合100G数据集【DmitriySelivanov】 http://dsnotes.com/post/2017-02-07-large-data-feature-hashing-and-online-learning-part-2/
  15. 2010-2017最全KDD CUP赛题回顾及数据集 http://suo.im/2kRoQ1
  16. 食谱数据集:带有评级、营养及类别信息的超过2万种食谱【HugoDarwood】 https://www.kaggle.com/hugodarwood/epirecipes
  17. 奥斯卡数据集【Academy of Motion Picture Arts and Sciences】 https://www.kaggle.com/theacademy/academy-awards
  18. 聚类数据集 https://cs.joensuu.fi/sipu/datasets/
  19. 官方开放气候数据集 https://pan.baidu.com/s/1i52Xarb
  20. 全球恐怖袭击事件数据集【START Consortium】 https://www.kaggle.com/START-UMD/gtd
  21. 七个机器学习时序数据集 https://machinelearningmastery.com/time-series-datasets-for-machine-learning/
  22. 赛马赔率数据集 http://t.cn/RNf0tXN
  23. JMIR数据集专刊《JMIR Data》http://t.cn/RCIhmvS
  24. 人口普查收入数据集分类https:// http://github.com/dformoso/sklearn-classification
  25. 多模态二元行为数据集http://t.cn/RCzFn1g
  26. Facebook星际争霸游戏数据集
  27. (TorchCraft可读/365GB/6万多场次/15亿帧画面/近5亿用户操作)http://t.cn/R9j8AUM
  28. 机器学习论文/数据集/工具集锦(日文) http://t.cn/RKV7x2A
  29. 机器学习公司的十大数据搜集策略 http://t.cn/R54rtvd
  30. 日语相似词数据集 http://t.cn/RaVFV35
  31. 大规模人本完形填空(多选阅读理解)数据集 http://t.cn/Rac2Pey
  32. 高质量免费数据集列表 http://t.cn/R6B1aqa
  33. 微软数据集MS MARCO,阅读理解领域的「ImageNet」http://t.cn/RIMqGBK

总结

引用参考博客      [深度学习 机器学习 数据集资源汇总] 、[各领域近千条数据集公开]

主页也可细阅更多AI精华文章!

欢迎大家点赞、评论及转载,转载请注明出处!

博主也把一些数据集以网盘分享。需要网盘下载的可关注公众号(Edge AI人工智能超市)发送‘帮助’文字,获取网盘形式下载!


http://www.ppmy.cn/news/195795.html

相关文章

科技爱好者周刊(第 165 期):全端 App 的时代

这里记录每周值得分享的科技内容,周五发布。 本杂志开源(GitHub: ruanyf/weekly),欢迎提交 issue,投稿或推荐科技内容。 周刊讨论区的帖子《谁在招人?》,提供大量程序员就业信息,欢迎访问或发布工作/实习岗…

江苏省专转本计算机专业大类《计算机基础理论 1.2(二)小节习题答案》

江苏省专转本计算机题库答案——《计算机基础理论 第一章》 本题库面向江苏省普通高校专转本计算机大类(新政策),约包含4000道题目,考点内容全覆盖。 更多资料见wx公众号/小程序——云开本科,开放大量免费题库练习。…

Instagram-Color 启示录

Pinterest 创建于 2010 年,截至 2011 年 5 月,该公司包括创始人在内,总共只有 4 名员工。Pinterest 最初只是一个网站,设立若干主题墙,供用户分享图片。2010 年 7 月,获首轮融资 70 万美元[1]。 Instagram…

嵌入式分享合集73

一、串口传输数据时结构体的转换 嵌入式系统的串口数据传输都是以字节为单位,但是有些特殊的数据类型,比如浮点型float a231.5,在内存是如何表示的呢? 我们知道浮点型float数据类型占用4个字节,实际上在内存当中a0x4…

伟大时刻:小米的命门

今天,小米股票将在香港主板敲钟上市,发行价为17港元/股,对应公司市值约为539亿美元。昨天,雷军说,今天是小米的“伟大时刻”,而对此华为余承东在朋友圈含蓄地回应,“中国企业不能把上市后的一夜…

手机厂商们纷纷投入的超前研发,Google ATAP提供了一个很好的样本

苹果的iPhone开启了智能手机时代,而Google随后开源Android让智能手机真正繁荣。在Android之后,一大批的手机厂商们通过Android、ARM架构以及高通/联发科的参考设计,迅速推出产品,并在2010 - 2015年期间快速成长。 但从去年开始&am…

蓝翔开设电竞专业,从《英雄联盟》学起;360将借壳江南嘉捷登陆A股;苹果iPhone X首拆丨价值早报

第【760】期早报由【周五】赞助播出 01 今日头条 蓝翔开设电竞专业,从《英雄联盟》学起 11月2日,据报道,以挖掘机、汽修、烹饪教学而闻名的山东蓝翔高级技工学校已经开设了“电竞专业”,学制3年,以培养电子竞技相关的复…

iPhone最强悍对抗者——HTC崛起的秘密

从台湾桃园机场出发,不到半小时车程,就可来到宏达电(以下称HTC)的全球总部。 这座玻璃帷幕的现代化大楼,隐身在三十年历史的龟山工业区里。周遭一片灰蒙蒙的铁工厂、纺织厂、机械厂,过去都是台湾出口创汇的主力,如今沦…