神经网络肯定是要学习的,主要是BP算法,可以看看PRML3、4、5三章,可先忽略其中的贝叶斯视角的解释。一些主要的算法理解要看具体的论文了,有个Matlab的程序不错,有基本算法的实现,见 rasmusbergpalm/DeepLearnToolbox · GitHub。有一本系统的介绍深度学习的书,不过还没写完,样稿见 DEEP LEARNING。还有评论中提到的UFLDL教程: Unsupervised Feature Learning and Deep Learning Tutorial
Tutorial
- Deep Learning Tutorial from Stanford - Stanford计算机系的官方tutorial,Andrew Ng执笔。要想了解DL的原理,这个最好用了。
论文
-
The Learning Machines - 一个导论性质的文章,让你大致了解深度学习是什么,用来干什么的。
-
Deep Learning - (Review Article in Nature, May 2015) 三大神 Yann LeCun, Yoshua Bengio, and Geoffrey Hinton的文章,不解释。
-
Growing Pains in Deep Learning
-
Deep Learning in Neural Networks - This technical report provides an overview of deep learning and related techniques with a special focus on developments in recent years. 主要看点是深度学习近两年(2012-2014)的进展情况。
课程
-
Neural Networks for Machine Learning - Geoffrey Hinton在Coursera开设的MOOC。现在没有重新开课,但里面的资料都有,论坛也开放。
-
Oxford Deep Learning - Nando de Freitas 在 Oxford 开设的深度学习课程,有全套视频。
教材
- Deep Learning - Yoshua Bengio, Ian Goodfellow and Aaron Courville,目前最权威的DL教材了
几个常见应用领域:
- Video Recognition - finding and/or identifying specific items in videos or images
- Self-Driving Cars - just like it says, cars that drive without humans
- Natural Language Processing - getting computers to understand human vocal languages
- And others - A free book chapter on many applications of deep learning
几个常用的深度学习代码库:
-
H2O - 一个开源的可扩展的库,支持Java, Python, Scala, and R
-
Deeplearning4j - Java库,整合了Hadoop和Spark
-
Caffe - Yangqing Jia读研究生的时候开发的,现在还是由Berkeley维护。
-
Theano - 最流行的Python库
News
- Deep Learning News - 紧跟深度学习的新闻、研究进展和相关的创业项目。
So,各位加油咯!!!
--------------------------------------------------------补 充--------------------------------------------------------------------------
另外建议看看大神Yoshua Bengio的推荐(左边的链接是论文,右边的是代码),有理论有应用(主要应用于CV和NLP)
- Page on Toronto, Home Page of Geoffrey Hinton
- Page on Toronto, Home Page of Ruslan R Salakhutdinov
- Page on Wustl, ynd/cae.py · GitHub
- Page on Icml, https://github.com/lisa-lab/pyle...
- Page on Jmlr, pylearn2)
- On the difficulty of training recurrent neural networks, trainingRNNs
- ImageNet Classification with Deep Convolutional Neural Networks, cuda-convnet - High-performance C++/CUDA implementation of convolutional neural networks - Google Project Hosting
- Linguistic Regularities in Continuous Space Word Representations, word2vec - Tool for computing continuous distributed representations of words. - Google Project Hosting
原文第一篇如下:
Qix/dl.md at master · ty4z2008/Qix · GitHub
机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 1) Qix/dl.md at master · ty4z2008/Qix · GitHub注:机器学习资料 篇目一共500条, 篇目二开始更新 Qix/dl.md at master · ty4z2008/Qix · GitHub希望转载的朋友,你可以不用联系我.但是 一定要保留原文链接,因为这个项目还在继续也在不定期更新.希望看到文章的朋友能够学到更多.此外:某些资料在中国访问需要梯子.感谢 Qix,深度学习准备由此入坑。
- 《Brief History of Machine Learning》
介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机、神经网络、决策树、SVM、Adaboost到随机森林、Deep Learning.译文part1
- 《Deep Learning in Neural Networks: An Overview》
介绍:这是瑞士人工智能实验室Jurgen Schmidhuber写的最新版本《神经网络与深度学习综述》本综述的特点是以时间排序,从1940年开始讲起,到60-80年代,80-90年代,一直讲到2000年后及最近几年的进展。涵盖了deep learning里各种tricks,引用非常全面.
- 《A Gentle Introduction to Scikit-Learn: A Python Machine Learning Library》
介绍:这是一份python机器学习库,如果您是一位python工程师而且想深入的学习机器学习.那么这篇文章或许能够帮助到你.
- 《How to Layout and Manage Your Machine Learning Project》
介绍:这一篇介绍如果设计和管理属于你自己的机器学习项目的文章,里面提供了管理模版、数据管理与实践方法.
- 《Machine Learning is Fun!》
介绍:如果你还不知道什么是机器学习,或则是刚刚学习感觉到很枯燥乏味。那么推荐一读。这篇文章已经被翻译成中文,如果有兴趣可以移步有趣的机器学习:最简明入门指南
- 《R语言参考卡片》
介绍:R语言是机器学习的主要语言,有很多的朋友想学习R语言,但是总是忘记一些函数与关键字的含义。那么这篇文章或许能够帮助到你
- 《Choosing a Machine Learning Classifier》
介绍:我该如何选择机器学习算法,这篇文章比较直观的比较了Naive Bayes,Logistic Regression,SVM,决策树等方法的优劣,另外讨论了样本大小、Feature与Model权衡等问题。此外还有已经翻译了的版本:http://www.52ml.net/15063.html
- 《An Introduction to Deep Learning: From Perceptrons to Deep Networks》
介绍:深度学习概述:从感知机到深度网络,作者对于例子的选择、理论的介绍都很到位,由浅入深。翻译版本:深度学习概述:从感知机到深度网络
《The LION Way: Machine Learning plus Intelligent Optimization》
介绍:<机器学习与优化>这是一本机器学习的小册子, 短短300多页道尽机器学习的方方面面. 图文并茂, 生动易懂, 没有一坨坨公式的烦恼. 适合新手入门打基础, 也适合老手温故而知新. 比起MLAPP/PRML等大部头, 也许这本你更需要!具体内容推荐阅读:LIONbook - intelligent-optimization.org for prescriptive analytics
《深度学习与统计学习理论》
介绍:作者是来自百度,不过他本人已经在2014年4月份申请离职了。但是这篇文章很不错如果你不知道深度学习与支持向量机/统计学习理论有什么联系?那么应该立即看看这篇文章.
- 《计算机科学中的数学》
介绍:这本书是由谷歌公司和MIT共同出品的计算机科学中的数学:Mathematics for Computer Science,Eric Lehman et al 2013 。分为5大部分:1)证明,归纳。2)结构,数论,图。3)计数,求和,生成函数。4)概率,随机行走。5)递归。等等
- 《信息时代的计算机科学理论(Foundations of Data Science)》
介绍:信息时代的计算机科学理论,目前国内有纸质书购买,iTunes购买
- 《Data Science with R》
介绍:这是一本由雪城大学新编的第二版《数据科学入门》教材:偏实用型,浅显易懂,适合想学习R语言的同学选读。
- 《Twenty Questions for Donald Knuth》
介绍:这并不是一篇文档或书籍。这是篇向图灵奖得主Donald Knuth提问记录稿: 近日, Charles Leiserson, Al Aho, Jon Bentley等大神向Knuth提出了20个问题,内容包括TAOCP,P/NP问题,图灵机,逻辑,以及为什么大神不用电邮等等。
- 《Automatic Construction and Natural-Language Description of Nonparametric Regression Models》
介绍:不会统计怎么办?不知道如何选择合适的统计模型怎么办?那这篇文章你的好好读一读了麻省理工Joshua B. Tenenbaum和剑桥Zoubin Ghahramani合作,写了一篇关于automatic statistician的文章。可以自动选择回归模型类别,还能自动写报告...
- 《ICLR 2014论文集》
介绍:对深度学习和representation learning最新进展有兴趣的同学可以了解一下
- 《Introduction to Information Retrieval》
介绍:这是一本信息检索相关的书籍,是由斯坦福Manning与谷歌副总裁Raghavan等合著的Introduction to Information Retrieval一直是北美最受欢迎的信息检索教材之一。最近作者增加了该课程的幻灯片和作业。IR相关资源:Information Retrieval Resources
- 《Machine learning in 10 pictures》
介绍:Deniz Yuret用10张漂亮的图来解释机器学习重要概念:1. Bias/Variance Tradeoff 2. Overfitting 3. Bayesian / Occam's razor 4. Feature combination 5. Irrelevant feature 6. Basis function 7. Discriminative / Generative 8. Loss function 9. Least squares 10. Sparsity.很清晰
- 《雅虎研究院的数据集汇总》
介绍:雅虎研究院的数据集汇总: 包括语言类数据,图与社交类数据,评分与分类数据,计算广告学数据,图像数据,竞赛数据,以及系统类的数据。
- 《An Introduction to Statistical Learning with Applications in R》
介绍:这是一本斯坦福统计学著名教授Trevor Hastie和Robert Tibshirani的新书,并且在2014年一月已经开课:Statistical Learning
- Best Machine Learning Resources for Getting Started
介绍:机器学习最佳入门学习资料汇总是专为机器学习初学者推荐的优质学习资源,帮助初学者快速入门。而且这篇文章的介绍已经被翻译成中文版。如果你不怎么熟悉,那么我建议你先看一看中文的介绍。
- My deep learning reading list
介绍:主要是顺着Bengio的PAMI review的文章找出来的。包括几本综述文章,将近100篇论文,各位山头们的Presentation。全部都可以在google上找到。
- Cross-Language Information Retrieval
介绍:这是一本书籍,主要介绍的是跨语言信息检索方面的知识。理论很多
- 探索推荐引擎内部的秘密,第 1 部分: 推荐引擎初探
介绍:本文共有三个系列,作者是来自IBM的工程师。它主要介绍了推荐引擎相关算法,并帮助读者高效的实现这些算法。 探索推荐引擎内部的秘密,第 2 部分: 深度推荐引擎相关算法 - 协同过滤,探索推荐引擎内部的秘密,第 3 部分: 深度推荐引擎相关算法 - 聚类
- 《Advice for students of machine learning》
介绍:康奈尔大学信息科学系助理教授David Mimno写的《对机器学习初学者的一点建议》, 写的挺实际,强调实践与理论结合,最后还引用了冯 • 诺依曼的名言: "Young man, in mathematics you don't understand things. You just get used to them."
- 分布式并行处理的数据
介绍:这是一本关于分布式并行处理的数据《Explorations in Parallel Distributed Processing: A Handbook of Models, Programs, and Exercises》,作者是斯坦福的James L. McClelland。着重介绍了各种神级网络算法的分布式实现,做Distributed Deep Learning 的童鞋可以参考下
- 《“机器学习”是什么?》
介绍:【“机器学习”是什么?】John Platt是微软研究院杰出科学家,17年来他一直在机器学习领域耕耘。近年来机器学习变得炙手可热,Platt和同事们遂决定开设博客,向公众介绍机器学习的研究进展。机器学习是什么,被应用在哪里?来看Platt的这篇博文
- 《2014年国际机器学习大会ICML 2014 论文》
介绍:2014年国际机器学习大会(ICML)已经于6月21-26日在国家会议中心隆重举办。本次大会由微软亚洲研究院和清华大学联手主办,是这个有着30多年历史并享誉世界的机器学习领域的盛会首次来到中国,已成功吸引海内外1200多位学者的报名参与。干货很多,值得深入学习下
- 《Machine Learning for Industry: A Case Study》
介绍:这篇文章主要是以Learning to Rank为例说明企业界机器学习的具体应用,RankNet对NDCG之类不敏感,加入NDCG因素后变成了LambdaRank,同样的思想从神经网络改为应用到Boosted Tree模型就成就了LambdaMART。Chirs Burges,微软的机器学习大神,Yahoo 2010 Learning to Rank Challenge第一名得主,排序模型方面有RankNet,LambdaRank,LambdaMART,尤其以LambdaMART最为突出,代表论文为: From RankNet to LambdaRank to LambdaMART: An Overview 此外,Burges还有很多有名的代表作,比如:A Tutorial on Support Vector Machines for Pattern Recognition
Some Notes on Applied Mathematics for Machine Learning
- 100 Best GitHub: Deep Learning
介绍:100 Best GitHub: Deep Learning
- 《UFLDL-斯坦福大学Andrew Ng教授“Deep Learning”教程》
介绍:本教程将阐述无监督特征学习和深度学习的主要观点。通过学习,你也将实现多个功能学习/深度学习算法,能看到它们为你工作,并学习如何应用/适应这些想法到新问题上。本教程假定机器学习的基本知识(特别是熟悉的监督学习,逻辑回归,梯度下降的想法),如果你不熟悉这些想法,我们建议你去这里机器学习课程,并先完成第II,III,IV章(到逻辑回归)。此外这关于这套教程的源代码在github上面已经有python版本了 UFLDL Tutorial Code
*《Deep Learning for Natural Language Processing and Related Applications》
介绍:这份文档来自微软研究院,精髓很多。如果需要完全理解,需要一定的机器学习基础。不过有些地方会让人眼前一亮,毛塞顿开。
- Understanding Convolutions
介绍:这是一篇介绍图像卷积运算的文章,讲的已经算比较详细的了
- 《Machine Learning Summer School》
介绍:每天请一个大牛来讲座,主要涉及机器学习,大数据分析,并行计算以及人脑研究。https://www.youtube.com/user/smolix (需翻墙)
- 《Awesome Machine Learning》
介绍:一个超级完整的机器学习开源库总结,如果你认为这个碉堡了,那后面这个列表会更让你惊讶:【Awesome Awesomeness】,国内已经有热心的朋友进行了翻译中文介绍,机器学习数据挖掘免费电子书
- 斯坦福《自然语言处理》课程视频
介绍:ACL候任主席、斯坦福大学计算机系Chris Manning教授的《自然语言处理》课程所有视频已经可以在斯坦福公开课网站上观看了(如Chrome不行,可用IE观看) 作业与测验也可以下载。
- 《Deep Learning and Shallow Learning》
介绍:对比 Deep Learning 和 Shallow Learning 的好文,来着浙大毕业、MIT 读博的 Chiyuan Zhang 的博客。
- 《Recommending music on Spotify with deep learning》
介绍:利用卷积神经网络做音乐推荐。
- 《Neural Networks and Deep Learning》
介绍:神经网络的免费在线书,已经写了三章了,还有对应的开源代码:GitHub - mnielsen/neural-networks-and-deep-learning: Code samples for my book "Neural Networks and Deep Learning" 爱好者的福音。
- 《Java Machine Learning》
介绍:Java机器学习相关平台和开源的机器学习库,按照大数据、NLP、计算机视觉和Deep Learning分类进行了整理。看起来挺全的,Java爱好者值得收藏。
- 《Machine Learning Theory: An Introductory Primer》
介绍:机器学习最基本的入门文章,适合零基础者
- 《机器学习常见算法分类汇总》
介绍:机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家介绍,第一个方面是学习的方式,第二个方面是算法的类似性。
- 《机器学习经典论文/survey合集》
介绍:看题目你已经知道了是什么内容,没错。里面有很多经典的机器学习论文值得仔细与反复的阅读。
- 《机器学习视频库》
介绍:视频由加州理工学院(Caltech)出品。需要英语底子。
- 《机器学习经典书籍》
介绍:总结了机器学习的经典书籍,包括数学基础和算法理论的书籍,可做为入门参考书单。
- 《16 Free eBooks On Machine Learning》
介绍:16本机器学习的电子书,可以下载下来在pad,手机上面任意时刻去阅读。不多我建议你看完一本再下载一本。
- 《A Large set of Machine Learning Resources for Beginners to Mavens》
介绍:标题很大,从新手到专家。不过看完上面所有资料。肯定是专家了
- 《机器学习最佳入门学习资料汇总》
介绍:入门的书真的很多,而且我已经帮你找齐了。
- 《Sibyl》
介绍:Sibyl 是一个监督式机器学习系统,用来解决预测方面的问题,比如 YouTube 的视频推荐。
- 《Deep Learning》
介绍:Yoshua Bengio, Ian Goodfellow, Aaron Courville著
- 《Neural Network & Text Mining》
介绍:关于(Deep) Neural Networks在 NLP 和 Text Mining 方面一些paper的总结
- 《前景目标检测1(总结)》
介绍:计算机视觉入门之前景目标检测1(总结)
- 《行人检测》
介绍:计算机视觉入门之行人检测
- 《Deep Learning – important resources for learning and understanding》
介绍:Important resources for learning and understanding . Is awesome
- 《Machine Learning Theory: An Introductory Primer》
介绍:这又是一篇机器学习初学者的入门文章。值得一读
- 《Neural Networks and Deep Learning》
介绍:在线Neural Networks and Deep Learning电子书
- 《Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱》
介绍:python的17个关于机器学习的工具
- 《神奇的伽玛函数(上)》
介绍:下集在这里神奇的伽玛函数(下)
- 《分布式机器学习的故事》
介绍:作者王益目前是腾讯广告算法总监,王益博士毕业后在google任研究。这篇文章王益博士7年来从谷歌到腾讯对于分布机器学习的所见所闻。值得细读
- 《机器学习提升之道(Level-Up Your Machine Learning)》
介绍:把机器学习提升的级别分为0~4级,每级需要学习的教材和掌握的知识。这样,给机器学习者提供一个上进的路线图,以免走弯路。另外,整个网站都是关于机器学习的,资源很丰富。
- 《Machine Learning Surveys》
介绍:机器学习各个方向综述的网站
- 《Deep Learning Reading list》
介绍:深度学习阅资源列表
- 《Deep Learning: Methods and Applications》
介绍:这是一本来自微的研究员 li Peng和Dong Yu所著的关于深度学习的方法和应用的电子书
- 《Machine Learning Summer School 2014》
介绍:2014年七月CMU举办的机器学习夏季课刚刚结束 有近50小时的视频、十多个PDF版幻灯片,覆盖 深度学习,贝叶斯,分布式机器学习,伸缩性 等热点话题。所有13名讲师都是牛人:包括大牛Tom Mitchell (他的[机器学习]是名校的常用教材),还有CMU李沐 .(1080P高清哟)
- 《Sibyl: 来自Google的大规模机器学习系统》
介绍:在今年的IEEE/IFIP可靠系统和网络(DSN)国际会议上,Google软件工程师Tushar Chandra做了一个关于Sibyl系统的主题演讲。 Sibyl是一个监督式机器学习系统,用来解决预测方面的问题,比如YouTube的视频推荐。详情请阅读google sibyl
- 《Building a deeper understanding of images》
介绍:谷歌研究院的Christian Szegedy在谷歌研究院的博客上简要地介绍了他们今年参加ImageNet取得好成绩的GoogLeNet系统.是关于图像处理的。
- 《Bayesian network 与python概率编程实战入门》
介绍:贝叶斯学习。如果不是很清可看看概率编程语言与贝叶斯方法实践
- 《AMA: Michael I Jordan》
介绍:网友问伯克利机器学习大牛、美国双料院士Michael I. Jordan:"如果你有10亿美金,你怎么花?Jordan: "我会用这10亿美金建造一个NASA级别的自然语言处理研究项目。"
- 《机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)》
介绍:常见面试之机器学习算法思想简单梳理,此外作者还有一些其他的机器学习与数据挖掘文章和深度学习文章,不仅是理论还有源码。
- 《文本与数据挖掘视频汇总》
介绍:Videolectures上最受欢迎的25个文本与数据挖掘视频汇总
- 《怎么选择深度学习的GPUs》
介绍:在Kaggle上经常取得不错成绩的Tim Dettmers介绍了他自己是怎么选择深度学习的GPUs, 以及个人如何构建深度学习的GPU集群: http://t.cn/RhpuD1G
- 《对话机器学习大神Michael Jordan:深度模型》
介绍:对话机器学习大神Michael Jordan
- 《Deep Learning 和 Knowledge Graph 引爆大数据革命》
介绍:还有2,3部分。Deep Learning 【2,3】
- 《Deep Learning 教程翻译》
介绍:是Stanford 教授 Andrew Ng 的 Deep Learning 教程,国内的机器学习爱好者很热心的把这个教程翻译成了中文。如果你英语不好,可以看看这个
- 《Deep Learning 101》
介绍:因为近两年来,深度学习在媒体界被炒作很厉害(就像大数据)。其实很多人都还不知道什么是深度学习。这篇文章由浅入深。告诉你深度学究竟是什么!
- 《UFLDL Tutorial》
介绍:这是斯坦福大学做的一免费课程(很勉强),这个可以给你在深度学习的路上给你一个学习的思路。里面提到了一些基本的算法。而且告诉你如何去应用到实际环境中。中文版
- 《Toronto Deep Learning Demos》
介绍:这是多伦多大学做的一个深度学习用来识别图片标签/图转文字的demo。是一个实际应用案例。有源码
- 《Deep learning from the bottom up》
介绍:机器学习模型,阅读这个内容需要有一定的基础。
- 《R工具包的分类汇总》
介绍: (CRAN Task Views, 34种常见任务,每个任务又各自分类列举若干常用相关工具包) 例如: 机器学习,自然语言处理,时间序列分析,空间信息分析,多重变量分析,计量经济学,心理统计学,社会学统计,化学计量学,环境科学,药物代谢动力学 等
- 《机器学习常见算法分类汇总》
介绍: 机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。本文为您总结一下常见的机器学习算法,以供您在工作和学习中参考.
- 《Deep Learning(深度学习)学习笔记整理系列》
介绍: 很多干货,而且作者还总结了好几个系列。另外还作者还了一个文章导航.非常的感谢作者总结。
Deep Learning(深度学习)学习笔记整理系列之(二)
Deep Learning(深度学习)学习笔记整理系列之(三)
Deep Learning(深度学习)学习笔记整理系列之(四)
Deep Learning(深度学习)学习笔记整理系列之(五)
Deep Learning(深度学习)学习笔记整理系列之(六)
Deep Learning(深度学习)学习笔记整理系列之(七)
DeepLearning(深度学习)学习笔记整理系列之(八)
- 《Tutorials Session A - Deep Learning for Computer Vision》
介绍:传送理由:Rob Fergus的用深度学习做计算机是觉的NIPS 2013教程。有mp4, mp3, pdf各种下载 他是纽约大学教授,目前也在Facebook工作,他2014年的8篇论文
- 《FudanNLP》
介绍:FudanNLP,这是一个复旦大学计算机学院开发的开源中文自然语言处理(NLP)工具包 Fudan NLP里包含中文分词、关键词抽取、命名实体识别、词性标注、时间词抽取、语法分析等功能,对搜索引擎 文本分析等极为有价值。
- 《Open Sourcing ml-ease》
介绍:LinkedIn 开源的机器学习工具包,支持单机, Hadoop cluster,和 Spark cluster 重点是 logistic regression 算法
- 《机器学习周刊》
介绍:对于英语不好,但又很想学习机器学习的朋友。是一个大的福利。机器学习周刊目前主要提供中文版,还是面向广大国内爱好者,内容涉及机器学习、数据挖掘、并行系统、图像识别、人工智能、机器人等等。谢谢作者
- 《线性代数》
介绍:《线性代数》是《机器学习》的重要数学先导课程。其实《线代》这门课讲得浅显易懂特别不容易,如果一上来就讲逆序数及罗列行列式性质,很容易让学生失去学习的兴趣。我个人推荐的最佳《线性代数》课程是麻省理工Gilbert Strang教授的课程。 课程主页
- 《Big-data》
介绍:大数据数据处理资源、工具不完备列表,从框架、分布式编程、分布式文件系统、键值数据模型、图数据模型、数据可视化、列存储、机器学习等。很赞的资源汇总。
- 《machine learning for smart dummies》
介绍:雅虎邀请了一名来自本古里安大学的访问学者,制作了一套关于机器学习的系列视频课程。本课程共分为7期,详细讲解了有关SVM, boosting, nearest neighbors, decision trees 等常规机器学习算法的理论基础知识。
- 《Entanglement-Based Quantum Machine Learning》
介绍:应对大数据时代,量子机器学习的第一个实验 paper 下载
- 《How a Math Genius Hacked OkCupid to Find True Love》
介绍:Wired杂志报道了UCLA数学博士Chris McKinlay (图1)通过大数据手段+机器学习方法破解婚恋网站配对算法找到真爱的故事,通过Python脚本控制着12个账号,下载了婚恋网站2万女用户的600万问题答案,对他们进行了统计抽样及聚类分析(图2,3),最后终于收获了真爱。科技改变命运!
- 《Underactuated Robotics》
介绍:MIT的Underactuated Robotics于 2014年10月1日开课,该课属于MIT研究生级别的课程,对机器人和非线性动力系统感兴趣的朋友不妨可以挑战一下这门课程!
- 《mllib实践经验(1)》
介绍:mllib实践经验分享
- 《Google Turns To Deep Learning Classification To Fight Web Spam》
介绍:Google用Deep Learning做的antispam(反垃圾邮件)
- 《NLP常用信息资源》
介绍:NLP常用信息资源* 《NLP常用信息资源》
- 《机器学习速查表》
介绍:机器学习速查表
- 《Best Papers vs. Top Cited Papers in Computer Science》
介绍:从1996年开始在计算机科学的论文中被引用次数最多的论文
- 《InfiniTAM: 基于深度图像的体数据集成框架》
介绍:把今年的一个ACM Trans. on Graphics (TOG)论文中的代码整理为一个开源的算法框架,共享出来了。欢迎大家使用。可以实时的采集3D数据、重建出三维模型。Online learning,GPU Random forest,GPU CRF也会后续公开。
- 《Hacker's guide to Neural Networks》
介绍:【神经网络黑客指南】现在,最火莫过于深度学习(Deep Learning),怎样更好学习它?可以让你在浏览器中,跑起深度学习效果的超酷开源项目ConvNetJS作者karpathy告诉你,最佳技巧是,当你开始写代码,一切将变得清晰。他刚发布了一本图书,不断在线更新
- 《Building a Production Machine Learning Infrastructure》
介绍:前Google广告系统工程师Josh Wills 讲述工业界和学术界机器学习的异同,大实话
- 《Deep Learning Sentiment Analysis for Movie Reviews using Neo4j》
介绍:使用Neo4j 做电影评论的情感分析。
- 《DeepLearning.University – An Annotated Deep Learning Bibliography》
介绍:不仅是资料,而且还对有些资料做了注释。
- 《A primer on deeping learning》
介绍:深度学习入门的初级读本
- 《Machine learning is teaching us the secret to teaching 》
介绍:机器学习教会了我们什么?
- 《scikit-learn:用于机器学习的Python模块》
介绍:scikit-learn是在SciPy基础上构建的用于机器学习的Python模块。
- 《对话机器学习大神Michael Jordan:解析领域中各类模型》
介绍:乔丹教授(Michael I. Jordan)教授是机器学习领域神经网络的大牛,他对深度学习、神经网络有着很浓厚的兴趣。因此,很多提问的问题中包含了机器学习领域的各类模型,乔丹教授对此一一做了解释和展望。
- 《A*搜索算法的可视化短教程》
介绍:A*搜索是人工智能基本算法,用于高效地搜索图中两点的最佳路径, 核心是 g(n)+h(n): g(n)是从起点到顶点n的实际代价,h(n)是顶点n到目标顶点的估算代价。合集
- 《基于云的自然语言处理开源项目FudanNLP》
介绍:本项目利用了Microsoft Azure,可以在几分种内完成NLP on Azure Website的部署,立即开始对FNLP各种特性的试用,或者以REST API的形式调用FNLP的语言分析功能
- 《吴立德《概率主题模型&数据科学基础》
介绍:现任复旦大学首席教授、计算机软件博士生导师。计算机科学研究所副所长.内部课程
- 《机器学习入门资源不完全汇总》
介绍:好东西的干货真的很多
- 《收集从2014年开始深度学习文献》
介绍:从硬件、图像到健康、生物、大数据、生物信息再到量子计算等,Amund Tveit等维护了一个DeepLearning.University小项目:收集从2014年开始深度学习文献,相信可以作为深度学习的起点,github
- 《EMNLP上两篇关于股票趋势的应用论文 》
介绍:EMNLP上两篇关于stock trend 用到了deep model组织特征; Exploiting Social Relations and Sentiment for Stock Prediction用到了stock network。
- 《Bengio组(蒙特利尔大学LISA组)深度学习教程 》
介绍:作者是深度学习一线大牛Bengio组写的教程,算法深入显出,还有实现代码,一步步展开。
- 《学习算法的Neural Turing Machine 》
介绍:许多传统的机器学习任务都是在学习function,不过谷歌目前有开始学习算法的趋势。谷歌另外的这篇学习Python程序的Learning to Execute也有相似之处
- 《Learning to Rank for Information Retrieval and Natural Language Processing》
介绍:作者是华为技术有限公司,诺亚方舟实验室,首席科学家的李航博士写的关于信息检索与自然语言处理的文章
- 《Rumor has it: Identifying Misinformation in Microblogs》
介绍:利用机用器学习在谣言的判别上的应用,此外还有两个。一个是识别垃圾与虚假信息的paper.还有一个是网络舆情及其分析技术
- 《R机器学习实践》
介绍:该课程是网易公开课的收费课程,不贵,超级便宜。主要适合于对利用R语言进行机器学习,数据挖掘感兴趣的人。
- 《大数据分析:机器学习算法实现的演化》
介绍:本章中作者总结了三代机器学习算法实现的演化:第一代非分布式的, 第二代工具如Mahout和Rapidminer实现基于Hadoop的扩展,第三代如Spark和Storm实现了实时和迭代数据处理。BIG DATA ANALYTICS BEYOND HADOOP
- 《图像处理,分析与机器视觉》
介绍:讲计算机视觉的四部奇书(应该叫经典吧)之一,另外三本是Hartley的《多图几何》、Gonzalez的《数字图像处理》、Rafael C.Gonzalez / Richard E.Woods 的《数字图像处理》
- 《LinkedIn最新的推荐系统文章Browsemaps》
介绍:里面基本没涉及到具体算法,但作者介绍了CF在LinkedIn的很多应用,以及他们在做推荐过程中获得的一些经验。最后一条经验是应该监控log数据的质量,因为推荐的质量很依赖数据的质量!
- 《初学者如何查阅自然语言处理(NLP)领域学术资料》
介绍:初学者如何查阅自然语言处理(NLP)领域学术资料
- 《树莓派的人脸识别教程》
介绍:用树莓派和相机模块进行人脸识别
- 《利用深度学习与大数据构建对话系统 》
介绍:如何利用深度学习与大数据构建对话系统
- 《经典论文Leo Breiman:Statistical Modeling: The Two Cultures 》
介绍:Francis Bach合作的有关稀疏建模的新综述(书):Sparse Modeling for Image and Vision Processing,内容涉及Sparsity, Dictionary Learning, PCA, Matrix Factorization等理论,以及在图像和视觉上的应用,而且第一部分关于Why does the l1-norm induce sparsity的解释也很不错。
- 《Reproducing Kernel Hilbert Space》
介绍:RKHS是机器学习中重要的概念,其在large margin分类器上的应用也是广为熟知的。如果没有较好的数学基础,直接理解RKHS可能会不易。本文从基本运算空间讲到Banach和Hilbert空间,深入浅出,一共才12页。
- 《Hacker's guide to Neural Networks》
介绍:许多同学对于机器学习及深度学习的困惑在于,数学方面已经大致理解了,但是动起手来却不知道如何下手写代码。斯坦福深度学习博士Andrej Karpathy写了一篇实战版本的深度学习及机器学习教程,手把手教你用Javascript写神经网络和SVM.
- 《【语料库】语料库资源汇总》
介绍:【语料库】语料库资源汇总
- 《机器学习算法之旅》
介绍:本文会过一遍最流行的机器学习算法,大致了解哪些方法可用,很有帮助。
- 《Reproducible Research in Computational Science》
介绍:这个里面有很多关于机器学习、信号处理、计算机视觉、深入学习、神经网络等领域的大量源代码(或可执行代码)及相关论文。科研写论文的好资源
- 《NYU 2014年的深度学习课程资料》
介绍:NYU 2014年的深度学习课程资料,有视频
- 《计算机视觉数据集不完全汇总》
介绍:计算机视觉数据集不完全汇总
- 《Machine Learning Open Source Software》
介绍:机器学习开源软件
- 《LIBSVM》
介绍:A Library for Support Vector Machines
- 《Support Vector Machines》
介绍:数据挖掘十大经典算法之一
- 《100 Best GitHub: Deep Learning》
介绍:github上面100个非常棒的项目
- 《加州大学欧文分校(UCI)机器学习数据集仓库》
介绍:当前加州大学欧文分校为机器学习社区维护着306个数据集。查询数据集
- 《Andrej Karpathy个人主页》
介绍:Andrej Karpathy 是斯坦福大学Li Fei-Fei的博士生,使用机器学习在图像、视频语义分析领域取得了科研和工程上的突破,发的文章不多,但每个都很扎实,在每一个问题上都做到了state-of-art.
- 《Andrej Karpathy的深度强化学习演示》
介绍:Andrej Karpathy的深度强化学习演示,论文在这里
- 《CIKM数据挖掘竞赛夺冠算法-陈运文》
介绍:CIKM Cup(或者称为CIKM Competition)是ACM CIKM举办的国际数据挖掘竞赛的名称。
- 《Geoffrey E. Hinton》
介绍:杰弗里·埃弗里斯特·辛顿 FRS是一位英国出生的计算机学家和心理学家,以其在神经网络方面的贡献闻名。辛顿是反向传播算法和对比散度算法的发明人之一,也是深度学习的积极推动者.
- 《自然语言处理的深度学习理论与实际》
介绍:微软研究院深度学习技术中心在CIKM2014 上关于《自然语言处理的深度学习理论与实际》教学讲座的幻灯片
- 《用大数据和机器学习做股票价格预测》
介绍: 本文基于<支持向量机的高频限价订单的动态建模>采用了 Apache Spark和Spark MLLib从纽约股票交易所的订单日志数据构建价格运动预测模型。(股票有风险,投资谨慎)GitHub源代码托管地址.
- 《关于机器学习的若干理论问题》
介绍:徐宗本 院士将于热爱机器学习的小伙伴一起探讨有关于机器学习的几个理论性问题,并给出一些有意义的结论。最后通过一些实例来说明这些理论问题的物理意义和实际应用价值。
- 《深度学习在自然语言处理的应用》
介绍:作者还著有《这就是搜索引擎:核心技术详解》一书,主要是介绍应用层的东西
- 《Undergraduate machine learning at UBC》
介绍:机器学习课程
- 《人脸识别必读的N篇文章》
介绍:人脸识别必读文章推荐
- 《推荐系统经典论文文献及业界应用》
介绍:推荐系统经典论文文献
- 《人脸识别必读的N篇文章》
介绍:人脸识别必读文章推荐
- 《第十二届中国"机器学习及其应用"研讨会PPT》
介绍:第十二届中国"机器学习及其应用"研讨会PPT
- 《统计机器学习》
介绍:统计学习是关于计算机基于数据构建的概率统计模型并运用模型对数据进行预测和分析的一门科学,统计学习也成为统计机器学习。课程来自上海交通大学
- 《机器学习导论》
介绍:机器学习的目标是对计算机编程,以便使用样本数据或以往的经验来解决给定的问题.
- 《CIKM 2014主题报告的幻灯片》
介绍:CIKM 2014 Jeff Dean、Qi Lu、Gerhard Weikum的主题报告的幻灯片, Alex Smola、Limsoon Wong、Tong Zhang、Chih-Jen Lin的Industry Track报告的幻灯片
- 《人工智能和机器学习领域有趣的开源项目》
介绍:部分中文列表
- 《机器学习经典算法详解及Python实现--基于SMO的SVM分类器》
介绍:此外作者还有一篇元算法、AdaBoost python实现文章
- 《Numerical Optimization: Understanding L-BFGS》
介绍:加州伯克利大学博士Aria Haghighi写了一篇超赞的数值优化博文,从牛顿法讲到拟牛顿法,再讲到BFGS以及L-BFGS, 图文并茂,还有伪代码。强烈推荐。
- 《简明深度学习方法概述(一)》
介绍:还有续集简明深度学习方法概述(二)
- 《R language for programmers》
介绍:R语言程序员私人定制版
- 《谷歌地图解密:大数据与机器学习的结合》
介绍:谷歌地图解密
- 《空间数据挖掘常用方法》
介绍:空间数据挖掘常用方法
- 《Use Google's Word2Vec for movie reviews》
介绍:Kaggle新比赛 ”When bag of words meets bags of popcorn“ aka ”边学边用word2vec和deep learning做NLP“ 里面全套教程教一步一步用python和gensim包的word2vec模型,并在实际比赛里面比调参数和清数据。 如果已装过gensim不要忘升级
- 《PyNLPIR》
介绍:PyNLPIR提供了NLPIR/ICTCLAS汉语分词的Python接口,此外Zhon提供了常用汉字常量,如CJK字符和偏旁,中文标点,拼音,和汉字正则表达式(如找到文本中的繁体字)
- 《深度卷积神经网络下围棋》
介绍:这文章说把最近模型识别上的突破应用到围棋软件上,打16万张职业棋谱训练模型识别功能。想法不错。训练后目前能做到不用计算,只看棋盘就给出下一步,大约10级棋力。但这篇文章太过乐观,说什么人类的最后一块堡垒马上就要跨掉了。话说得太早。不过,如果与别的软件结合应该还有潜力可挖。@万精油墨绿
- 《NIPS审稿实验》
介绍:UT Austin教授Eric Price关于今年NIPS审稿实验的详细分析,他表示,根据这次实验的结果,如果今年NIPS重新审稿的话,会有一半的论文被拒。
- 《2014年最佳的大数据,数据科学文章》
介绍:KDNuggets分别总结了2014年14个阅读最多以及分享最多的文章。我们从中可以看到多个主题——深度学习,数据科学家职业,教育和薪酬,学习数据科学的工具比如R和Python以及大众投票的最受欢迎的数据科学和数据挖掘语言
- 《机器学习经典算法详解及Python实现--线性回归(Linear Regression)算法》
介绍:Python实现线性回归,作者还有其他很棒的文章推荐可以看看
- 《2014中国大数据技术大会33位核心专家演讲PDF》
介绍:2014中国大数据技术大会33位核心专家演讲PDF下载
- 《使用RNN和Paragraph Vector做情感分析》
介绍:这是T. Mikolov & Y. Bengio最新论文Ensemble of Generative and Discriminative Techniques for Sentiment Analysis of Movie Reviews ,使用RNN和PV在情感分析效果不错,[项目代码](https://github.com/mesnilgr/iclr15)公布在github(目前是空的)。这意味着Paragraph Vector终于揭开面纱了嘛。
- 《NLPIR/ICTCLAS2015分词系统大会上的技术演讲 》
介绍:NLPIR/ICTCLAS2015分词系统发布与用户交流大会上的演讲,请更多朋友检阅新版分词吧。 我们实验室同学的演讲包括:孙梦姝-基于评论观点挖掘的商品搜索技术研究李然-主题模型
- 《Machine Learning is Fun!》
介绍:Convex Neural Networks 解决维数灾难
- 《CNN的反向求导及练习》
介绍:介绍CNN参数在使用bp算法时该怎么训练,毕竟CNN中有卷积层和下采样层,虽然和MLP的bp算法本质上相同,但形式上还是有些区别的,很显然在完成CNN反向传播前了解bp算法是必须的。此外作者也做了一个资源集:机器学习,深度学习,视觉,数学等
- 《正则表达式优化成Trie树 》
介绍:如果要在一篇文章中匹配十万个关键词怎么办?Aho-Corasick 算法利用添加了返回边的Trie树,能够在线性时间内完成匹配。 但如果匹配十万个正则表达式呢 ? 这时候可以用到把多个正则优化成Trie树的方法,如日本人写的 Regexp::Trie
- 《Deep learning Reading List》
介绍:深度学习阅读清单
- 《Caffe》
介绍:Caffe是一个开源的深度学习框架,作者目前在google工作,作者主页Yangqing Jia (贾扬清)
- 《GoogLeNet深度学习模型的Caffe复现 》
介绍:2014 ImageNet冠军GoogLeNet深度学习模型的Caffe复现模型,GoogleNet论文.
- 《LambdaNet,Haskell实现的开源人工神经网络库 》
介绍:LambdaNetLambdaNet是由Haskell实现的一个开源的人工神经网络库,它抽象了网络创建、训练并使用了高阶函数。该库还提供了一组预定义函数,用户可以采取多种方式组合这些函数来操作现实世界数据。
- 《百度余凯&张潼机器学习视频》
介绍:如果你从事互联网搜索,在线广告,用户行为分析,图像识别,自然语言理解,或者生物信息学,智能机器人,金融预测,那么这门核心课程你必须深入了解。
- 《杨强在TEDxNanjing谈智能的起源》
介绍:"人工智能研究分许多流派。其中之一以IBM为代表,认为只要有高性能计算就可得到智能,他们的‘深蓝’击败了世界象棋冠军;另一流派认为智能来自动物本能;还有个很强的流派认为只要找来专家,把他们的思维用逻辑一条条写下,放到计算机里就行……" 杨强在TEDxNanjing谈智能的起源
- 《深度RNN/LSTM用于结构化学习 0)序列标注Connectionist Temporal ClassificationICML06》
介绍:1)机器翻译Sequence to Sequence NIPS14 2)成分句法GRAMMAR AS FOREIGN LANGUAGE
- 《Deep Learning实战之word2vec》
介绍:网易有道的三位工程师写的word2vec的解析文档,从基本的词向量/统计语言模型->NNLM->Log-Linear/Log-Bilinear->层次化Log-Bilinear,到CBOW和Skip-gram模型,再到word2vec的各种tricks,公式推导与代码,基本上是网上关于word2vec资料的大合集,对word2vec感兴趣的朋友可以看看
- 《Machine learning open source software》
介绍:机器学习开源软件,收录了各种机器学习的各种编程语言学术与商业的开源软件.与此类似的还有很多例如:DMOZ - Computers: Artificial Intelligence: Machine Learning: Software, LIBSVM -- A Library for Support Vector Machines, Weka 3: Data Mining Software in Java, scikit-learn:Machine Learning in Python, Natural Language Toolkit:NLTK, MAchine Learning for LanguagE Toolkit, Data Mining - Fruitful and Fun, Open Source Computer Vision Library
- 《机器学习入门者学习指南》
介绍:作者是计算机研二(写文章的时候,现在是2015年了应该快要毕业了),专业方向自然语言处理.这是一点他的经验之谈.对于入门的朋友或许会有帮助
- 《A Tour of Machine Learning Algorithms》
介绍:这是一篇关于机器学习算法分类的文章,非常好
- 《2014年的《机器学习日报》大合集》
介绍:机器学习日报里面推荐很多内容,在这里有一部分的优秀内容就是来自机器学习日报.
- 《 Image classification with deep learning常用模型》
介绍:这是一篇关于图像分类在深度学习中的文章
- 《自动语音识别:深度学习方法》
介绍:作者与Bengio的兄弟Samy 09年合编《自动语音识别:核方法》 3)李开复1989年《自动语音识别》专著,其博导、94年图灵奖得主Raj Reddy作序
- 《NLP中的中文分词技术》
介绍: 作者是360电商技术组成员,这是一篇NLP在中文分词中的应用
- 《Using convolutional neural nets to detect facial keypoints tutorial》
介绍: 使用deep learning的人脸关键点检测,此外还有一篇AWS部署教程
- 《书籍推荐:Advanced Structured Prediction》
介绍: 由Sebastian Nowozin等人编纂MIT出版的新书《Advanced Structured Prediction》http://t.cn/RZxipKG ,汇集了结构化预测领域诸多牛文,涉及CV、NLP等领域,值得一读。网上公开的几章草稿:一,二,三,四,五
- 《An Introduction to Matrix Concentration Inequalities》
介绍: Tropp把数学家用高深装逼的数学语言写的矩阵概率不等式用初等的方法写出来,是非常好的手册,领域内的paper各种证明都在用里面的结果。虽说是初等的,但还是非常的难
- 《The free big data sources you should know》
介绍: 不容错过的免费大数据集,有些已经是耳熟能详,有些可能还是第一次听说,内容跨越文本、数据、多媒体等,让他们伴你开始数据科学之旅吧,具体包括:http://Data.gov、US Census Bureau、European Union Open Data Portal、http://Data.gov.uk等
- 《A Brief Overview of Deep Learning》
介绍: 谷歌科学家、Hinton亲传弟子Ilya Sutskever的深度学习综述及实际建议
- 《A Deep Dive into Recurrent Neural Nets》
介绍: 非常好的讨论递归神经网络的文章,覆盖了RNN的概念、原理、训练及优化等各个方面内容,强烈推荐!本文作者Nikhil Buduma还有一篇Deep Learning in a Nutshell值得推荐
- 《机器学习:学习资源》
介绍:里面融合了很多的资源,例如竞赛,在线课程,demo,数据整合等。有分类
- 《Statistical foundations of machine learning》
介绍:《机器学习的统计基础》在线版,该手册希望在理论与实践之间找到平衡点,各主要内容都伴有实际例子及数据,书中的例子程序都是用R语言编写的。
- 《A Deep Learning Tutorial: From Perceptrons to Deep Networks》
介绍:IVAN VASILEV写的深度学习导引:从浅层感知机到深度网络。高可读
- 《Research priorities for robust and beneficial artificial intelligence》
介绍:鲁棒及有益的人工智能优先研究计划:一封公开信,目前已经有Stuart Russell, Tom Dietterich, Eric Horvitz, Yann LeCun, Peter Norvig, Tom Mitchell, Geoffrey Hinton, Elon Musk等人签署The Future of Life Institute (FLI).这封信的背景是最近霍金和Elon Musk提醒人们注意AI的潜在威胁。公开信的内容是AI科学家们站在造福社会的角度,展望人工智能的未来发展方向,提出开发AI系统的Verification,Validity, Security, Control四点要求,以及需要注意的社会问题。毕竟当前AI在经济领域,法律,以及道德领域相关研究较少。其实还有一部美剧《疑犯追踪》,介绍了AI的演进从一开始的自我学习,过滤,图像识别,语音识别等判断危险,到第四季的时候出现了机器通过学习成长之后想控制世界的状态。说到这里推荐收看。
- 《metacademy》
介绍:里面根据词条提供了许多资源,还有相关知识结构,路线图,用时长短等。号称是”机器学习“搜索引擎
- 《FAIR open sources deep-learning modules for Torch》
介绍:Facebook人工智能研究院(FAIR)开源了一系列软件库,以帮助开发者建立更大、更快的深度学习模型。开放的软件库在 Facebook 被称作模块。用它们替代机器学习领域常用的开发环境 Torch 中的默认模块,可以在更短的时间内训练更大规模的神经网络模型。
- 《浅析人脸检测之Haar分类器方法》
介绍:本文虽然是写于2012年,但是这篇文章完全是作者的经验之作。
- 《如何成为一位数据科学家》
介绍:本文是对《机器学习实战》作者Peter Harrington做的一个访谈。包含了书中部分的疑问解答和一点个人学习建议
- 《Deep learning from the bottom up》
介绍:非常好的深度学习概述,对几种流行的深度学习模型都进行了介绍和讨论
- 《Hands-On Data Science with R Text Mining》
介绍:主要是讲述了利用R语言进行数据挖掘
- 《Understanding Convolutions》
介绍:帮你理解卷积神经网络,讲解很清晰,此外还有两篇Conv Nets: A Modular Perspective,Groups & Group Convolutions. 作者的其他的关于神经网络文章也很棒
- 《Introduction to Deep Learning Algorithms》
介绍:Deep Learning算法介绍,里面介绍了06年3篇让deep learning崛起的论文
- 《Learning Deep Architectures for AI》
介绍:一本学习人工智能的书籍,作者是Yoshua Bengio,相关国内报道
- 《Geoffrey E. Hinton个人主页》
介绍:Geoffrey Hinton是Deep Learning的大牛,他的主页放了一些介绍性文章和课件值得学习
- 《PROBABILITY THEORY: THE LOGIC OF SCIENCE》
介绍:概率论:数理逻辑书籍
- 《H2O》
介绍:一个用来快速的统计,机器学习并且对于数据量大的数学库
- 《ICLR 2015会议的arXiv稿件合集》
介绍:在这里你可以看到最近深度学习有什么新动向。
- 《Introduction to Information Retrieval》
介绍:此书在信息检索领域家喻户晓, 除提供该书的免费电子版外,还提供一个IR资源列表 ,收录了信息检索、网络信息检索、搜索引擎实现等方面相关的图书、研究中心、相关课程、子领域、会议、期刊等等,堪称全集,值得收藏
- 《Information Geometry and its Applications to Machine Learning》
介绍:信息几何学及其在机器学习中的应用
- 《Legal Analytics – Introduction to the Course》
介绍:课程《法律分析》介绍幻灯片。用机器学习解决法律相关分析和预测问题,相关的法律应用包括预测编码、早期案例评估、案件整体情况的预测,定价和工作人员预测,司法行为预测等。法律领域大家可能都比较陌生,不妨了解下。
- 《文本上的算法》
介绍: 文中提到了最优,模型,最大熵等等理论,此外还有应用篇。推荐系统可以说是一本不错的阅读稿,关于模型还推荐一篇Generative Model 与 Discriminative Model
- 《NeuralTalk》
介绍: NeuralTalk is a Python+numpy project for learning Multimodal Recurrent Neural Networks that describe images with sentences.NeuralTalk是一个Python的从图像生成自然语言描述的工具。它实现了Google (Vinyals等,卷积神经网络CNN + 长短期记忆LSTM) 和斯坦福 (Karpathy and Fei-Fei, CNN + 递归神经网络RNN)的算法。NeuralTalk自带了一个训练好的动物模型,你可以拿狮子大象的照片来试试看
- 《Deep Learning on Hadoop 2.0》
介绍:本文主要介绍了在Hadoop2.0上使用深度学习,文章来自paypal
- 《Practical recommendations for gradient-based training of deep architectures》
介绍:用基于梯度下降的方法训练深度框架的实践推荐指导,作者是Yoshua Bengio .感谢@xuewei4d 推荐
- 《Machine Learning With Statistical And Causal Methods》
介绍: 用统计和因果方法做机器学习(视频报告)
- 《Machine Learning Course 180’》
介绍: 一个讲机器学习的Youtube视频教程。160集。系统程度跟书可比拟。
- 《回归(regression)、梯度下降(gradient descent)》
介绍: 机器学习中的数学,作者的研究方向是机器学习,并行计算如果你还想了解一点其他的可以看看他博客的其他文章
- 《美团推荐算法实践》
介绍: 美团推荐算法实践,从框架,应用,策略,查询等分析
- 《Deep Learning for Answer Sentence Selection》
介绍: 深度学习用于问答系统答案句的选取
- 《Learning Semantic Representations Using Convolutional Neural Networks for Web Search 》
介绍: CNN用于WEB搜索,深度学习在文本计算中的应用
- 《Awesome Public Datasets》
介绍: Awesome系列中的公开数据集
- 《Search Engine & Community》
介绍: 一个学术搜索引擎
- 《spaCy》
介绍: 用Python和Cython写的工业级自然语言处理库,号称是速度最快的NLP库,快的原因一是用Cython写的,二是用了个很巧妙的hash技术,加速系统的瓶颈,NLP中稀松特征的存取
- 《Collaborative Filtering with Spark》
介绍: Fields是个数学研究中心,上面的这份ppt是来自Fields举办的活动中Russ Salakhutdinov带来的《大规模机器学习》分享
- 《Topic modeling 的经典论文》
介绍: Topic modeling 的经典论文,标注了关键点
- 《Move Evaluation in Go Using Deep Convolutional Neural Networks》
介绍: 多伦多大学与Google合作的新论文,深度学习也可以用来下围棋,据说能达到六段水平
- 《机器学习周刊第二期》
介绍: 新闻,paper,课程,book,system,CES,Roboot,此外还推荐一个深度学习入门与综述资料
- 《Learning more like a human: 18 free eBooks on Machine Learning》
介绍: 18 free eBooks on Machine Learning
- 《Recommend :Hang Li Home》
介绍:Chief scientist of Noah's Ark Lab of Huawei Technologies.He worked at the Research Laboratories of NEC Corporation during 1990 and 2001 and Microsoft Research Asia during 2001 and 2012.Paper
- 《DEEPLEARNING.UNIVERSITY – AN ANNOTATED DEEP LEARNING BIBLIOGRAPHY》
介绍: DEEPLEARNING.UNIVERSITY的论文库已经收录了963篇经过分类的深度学习论文了,很多经典论文都已经收录
- 《MLMU.cz - Radim Řehůřek - Word2vec & friends (7.1.2015)》
介绍: Radim Řehůřek(Gensim开发者)在一次机器学习聚会上的报告,关于word2vec及其优化、应用和扩展,很实用.国内网盘
- 《Introducing streaming k-means in Spark 1.2》
介绍:很多公司都用机器学习来解决问题,提高用户体验。那么怎么可以让机器学习更实时和有效呢?Spark MLlib 1.2里面的Streaming K-means,由斑马鱼脑神经研究的Jeremy Freeman脑神经科学家编写,最初是为了实时处理他们每半小时1TB的研究数据,现在发布给大家用了。
- 《LDA入门与Java实现》
介绍: 这是一篇面向工程师的LDA入门笔记,并且提供一份开箱即用Java实现。本文只记录基本概念与原理,并不涉及公式推导。文中的LDA实现核心部分采用了arbylon的LdaGibbsSampler并力所能及地注解了,在搜狗分类语料库上测试良好,开源在GitHub上。
- 《AMiner - Open Science Platform》
介绍: AMiner是一个学术搜索引擎,从学术网络中挖掘深度知识、面向科技大数据的挖掘。收集近4000万作者信息、8000万论文信息、1亿多引用关系、链接近8百万知识点;支持专家搜索、机构排名、科研成果评价、会议排名。
- 《What are some interesting Word2Vec results?》
介绍: Quora上的主题,讨论Word2Vec的有趣应用,Omer Levy提到了他在CoNLL2014最佳论文里的分析结果和新方法,Daniel Hammack给出了找特异词的小应用并提供了(Python)代码
- 《机器学习公开课汇总》
介绍: 机器学习公开课汇总,虽然里面的有些课程已经归档过了,但是还有个别的信息没有。感谢课程图谱的小编
- 《A First Course in Linear Algebra》
介绍: 【A First Course in Linear Algebra】Robert Beezer 有答案 有移动版、打印版 使用GNU自由文档协议 引用了杰弗逊1813年的信
- 《libfacedetection》
介绍:libfacedetection是深圳大学开源的一个人脸图像识别库。包含正面和多视角人脸检测两个算法.优点:速度快(OpenCV haar+adaboost的2-3倍), 准确度高 (FDDB非公开类评测排名第二),能估计人脸角度。
- 《Inverting a Steady-State》
介绍:WSDM2015最佳论文 把马尔可夫链理论用在了图分析上面,比一般的propagation model更加深刻一些。通过全局的平稳分布去求解每个节点影响系数模型。假设合理(转移受到相邻的影响系数影响)。可以用来反求每个节点的影响系数
- 《机器学习入门书单》
介绍:机器学习入门书籍,具体介绍
- 《The Trouble with SVMs》
介绍: 非常棒的强调特征选择对分类器重要性的文章。情感分类中,根据互信息对复杂高维特征降维再使用朴素贝叶斯分类器,取得了比SVM更理想的效果,训练和分类时间也大大降低——更重要的是,不必花大量时间在学习和优化SVM上——特征也一样no free lunch
- 《Rise of the Machines》
介绍:CMU的统计系和计算机系知名教授Larry Wasserman 在《机器崛起》,对比了统计和机器学习的差异
- 《实例详解机器学习如何解决问题》
介绍:随着大数据时代的到来,机器学习成为解决问题的一种重要且关键的工具。不管是工业界还是学术界,机器学习都是一个炙手可热的方向,但是学术界和工业界对机器学习的研究各有侧重,学术界侧重于对机器学习理论的研究,工业界侧重于如何用机器学习来解决实际问题。这篇文章是美团的实际环境中的实战篇
- 《Gaussian Processes for Machine Learning》
介绍:面向机器学习的高斯过程,章节概要:回归、分类、协方差函数、模型选择与超参优化、高斯模型与其他模型关系、大数据集的逼近方法等,微盘下载
- 《FuzzyWuzzy: Fuzzy String Matching in Python》
介绍:Python下的文本模糊匹配库,老库新推,可计算串间ratio(简单相似系数)、partial_ratio(局部相似系数)、token_sort_ratio(词排序相似系数)、token_set_ratio(词集合相似系数)等 github
- 《Blocks》
介绍:Blocks是基于Theano的神经网络搭建框架,集成相关函数、管道和算法,帮你更快地创建和管理NN模块.
- 《Introduction to Machine Learning》
介绍:机器学习大神Alex Smola在CMU新一期的机器学习入门课程”Introduction to Machine Learning“近期刚刚开课,课程4K高清视频同步到Youtube上,目前刚刚更新到 2.4 Exponential Families,课程视频playlist, 感兴趣的同学可以关注,非常适合入门.
- 《Collaborative Feature Learning from Social Media》
介绍:用社交用户行为学习图片的协同特征,可更好地表达图片内容相似性。由于不依赖于人工标签(标注),可用于大规模图片处理,难在用户行为数据的获取和清洗;利用社会化特征的思路值得借鉴.
- 《Introducing practical and robust anomaly detection in a time series》
介绍:Twitter技术团队对前段时间开源的时间序列异常检测算法(S-H-ESD)R包的介绍,其中对异常的定义和分析很值得参考,文中也提到——异常是强针对性的,某个领域开发的异常检测在其他领域直接用可不行.
- 《Empower Your Team to Deal with Data-Quality Issues》
介绍:聚焦数据质量问题的应对,数据质量对各种规模企业的性能和效率都至关重要,文中总结出(不限于)22种典型数据质量问题显现的信号,以及典型的数据质量解决方案(清洗、去重、统一、匹配、权限清理等)
- 《中文分词入门之资源》
介绍:中文分词入门之资源.
- 《Deep Learning Summit, San Francisco, 2015》
介绍:15年旧金山深度学习峰会视频集萃,国内云盘
- 《Introduction to Conditional Random Fields》
介绍:很好的条件随机场(CRF)介绍文章,作者的学习笔记
- 《A Fast and Accurate Dependency Parser using Neural Networks》
介绍: 来自Stanford,用神经网络实现快速准确的依存关系解析器
- 《Which GPU(s) to Get for Deep Learning: My Experience and Advice for Using GPUs in Deep Learning》
介绍:做深度学习如何选择GPU的建议
- 《Sparse Linear Models》
介绍: Stanford的Trevor Hastie教授在H2O.ai Meet-Up上的报告,讲稀疏线性模型——面向“宽数据”(特征维数超过样本数)的线性模型,13年同主题报告 、讲义.
- 《Awesome Computer Vision》
介绍: 分类整理的机器视觉相关资源列表,秉承Awesome系列风格,有质有量!作者的更新频率也很频繁
- 《Adam Szeidl》
介绍: social networks course
- 《Building and deploying large-scale machine learning pipelines》
介绍: 大规模机器学习流程的构建与部署.
- 《人脸识别开发包》
介绍: 人脸识别二次开发包,免费,可商用,有演示、范例、说明书.
- 《Understanding Natural Language with Deep Neural Networks Using Torch》
介绍: 采用Torch用深度学习网络理解NLP,来自Facebook 人工智能的文章.
- 《The NLP Engine: A Universal Turing Machine for NLP》
介绍: 来自CMU的Ed Hovy和Stanford的Jiwei Li一篇有意思的Arxiv文章,作者用Shannon Entropy来刻画NLP中各项任务的难度.
- 《TThe Probabilistic Relevance Framework: BM25 and Beyond》
介绍: 信息检索排序模型BM25(Besting Matching)。1)从经典概率模型演变而来 2)捕捉了向量空间模型中三个影响索引项权重的因子:IDF逆文档频率;TF索引项频率;文档长度归一化。3)并且含有集成学习的思想:组合了BM11和BM15两个模型。4)作者是BM25的提出者和Okapi实现者Robertson.
- 《Introduction to ARMA Time Series Models – simplified》
介绍: 自回归滑动平均(ARMA)时间序列的简单介绍,ARMA是研究时间序列的重要方法,由自回归模型(AR模型)与滑动平均模型(MA模型)为基础“混合”构成.
- 《Encoding Source Language with Convolutional Neural Network for Machine Translation》
介绍: 把来自target的attention signal加入source encoding CNN的输入,得到了比BBN的模型好的多neural network joint model
- 《Spices form the basis of food pairing in Indian cuisine》
介绍: 揭开印度菜的美味秘诀——通过对大量食谱原料关系的挖掘,发现印度菜美味的原因之一是其中的味道互相冲突,很有趣的文本挖掘研究
- 《HMM相关文章索引》
介绍: HMM相关文章,此外推荐中文分词之HMM模型详解
- 《Zipf's and Heap's law》
介绍: 1)词频与其降序排序的关系,最著名的是语言学家齐夫(Zipf,1902-1950)1949年提出的Zipf‘s law,即二者成反比关系. 曼德勃罗(Mandelbrot,1924- 2010)引入参数修正了对甚高频和甚低频词的刻画 2)Heaps' law: 词汇表与语料规模的平方根(这是一个参数,英语0.4-0.6)成正比
- 《I am Jürgen Schmidhuber, AMA》
介绍: Jürgen Schmidhuber在Reddit上的AMA(Ask Me Anything)主题,有不少RNN和AI、ML的干货内容,关于开源&思想&方法&建议……耐心阅读,相信你也会受益匪浅.
- 《学术种子网站:AcademicTorrents》
介绍: 成G上T的学术数据,HN近期热议话题,主题涉及机器学习、NLP、SNA等。下载最简单的方法,通过BT软件,RSS订阅各集合即可
- 《机器学习交互速查表》
介绍: Scikit-Learn官网提供,在原有的Cheat Sheet基础上加上了Scikit-Learn相关文档的链接,方便浏览
- 《A Full Hardware Guide to Deep Learning》
介绍: 深度学习的全面硬件指南,从GPU到RAM、CPU、SSD、PCIe
- 《行人检测(Pedestrian Detection)资源》
介绍:Pedestrian Detection paper & data
- 《A specialized face-processing network consistent with the representational geometry of monkey face patches》
介绍: 【神经科学碰撞人工智能】在脸部识别上你我都是专家,即使细微的差别也能辨认。研究已证明人类和灵长类动物在面部加工上不同于其他物种,人类使用梭状回面孔区(FFA)。Khaligh-Razavi等通过计算机模拟出人脸识别的FFA活动,堪称神经科学与人工智能的完美结合。
- 《Neural Net in C++ Tutorial》
介绍: 神经网络C++教程,本文介绍了用可调节梯度下降和可调节动量法设计和编码经典BP神经网络,网络经过训练可以做出惊人和美妙的东西出来。此外作者博客的其他文章也很不错。
- 《How to Choose a Neural Network》
介绍:deeplearning4j官网提供的实际应用场景NN选择参考表,列举了一些典型问题建议使用的神经网络
- 《Deep Learning (Python, C/C++, Java, Scala, Go)》
介绍:一个深度学习项目,提供了Python, C/C++, Java, Scala, Go多个版本的代码
- 《Deep Learning Tutorials》
介绍:深度学习教程,github
- 《自然语言处理的发展趋势——访卡内基梅隆大学爱德华·霍威教授》
介绍:自然语言处理的发展趋势——访卡内基梅隆大学爱德华·霍威教授.
- 《FaceNet: A Unified Embedding for Face Recognition and Clustering》
介绍:Google对Facebook DeepFace的有力回击—— FaceNet,在LFW(Labeled Faces in the Wild)上达到99.63%准确率(新纪录),FaceNet embeddings可用于人脸识别、鉴别和聚类.
- 《MLlib中的Random Forests和Boosting》
介绍:本文来自Databricks公司网站的一篇博客文章,由Joseph Bradley和Manish Amde撰写,文章主要介绍了Random Forests和Gradient-Boosted Trees(GBTs)算法和他们在MLlib中的分布式实现,以及展示一些简单的例子并建议该从何处上手.中文版.
- 《Sum-Product Networks(SPN) 》
介绍:华盛顿大学Pedro Domingos团队的DNN,提供论文和实现代码.
- 《Neural Network Dependency Parser》
介绍:基于神经网络的自然语言依存关系解析器(已集成至Stanford CoreNLP),特点是超快、准确,目前可处理中英文语料,基于《A Fast and Accurate Dependency Parser Using Neural Networks》 思路实现.
- 《神经网络语言模型》
介绍:本文根据神经网络的发展历程,详细讲解神经网络语言模型在各个阶段的形式,其中的模型包含NNLM[Bengio,2003]、Hierarchical NNLM[Bengio, 2005], Log-Bilinear[Hinton, 2007],SENNA等重要变形,总结的特别好.
- 《Classifying Spam Emails using Text and Readability Features》
介绍:经典问题的新研究:利用文本和可读性特征分类垃圾邮件。
- 《BCI Challenge @ NER 2015》
介绍:Kaggle脑控计算机交互(BCI)竞赛优胜方案源码及文档,包括完整的数据处理流程,是学习Python数据处理和Kaggle经典参赛框架的绝佳实例
- 《IPOL Journal · Image Processing On Line》
介绍:IPOL(在线图像处理)是图像处理和图像分析的研究期刊,每篇文章都包含一个算法及相应的代码、Demo和实验文档。文本和源码是经过了同行评审的。IPOL是开放的科学和可重复的研究期刊。我一直想做点类似的工作,拉近产品和技术之间的距离.
- 《Machine learning classification over encrypted data》
介绍:出自MIT,研究加密数据高效分类问题.
- 《purine2》
介绍:新加坡LV实验室的神经网络并行框架Purine: A bi-graph based deep learning framework,支持构建各种并行的架构,在多机多卡,同步更新参数的情况下基本达到线性加速。12块Titan 20小时可以完成Googlenet的训练。
- 《Machine Learning Resources》
介绍:这是一个机器学习资源库,虽然比较少.但蚊子再小也是肉.有突出部分.此外还有一个由zheng Rui整理的机器学习资源.
- 《Hands-on with machine learning》
介绍:Chase Davis在NICAR15上的主题报告材料,用Scikit-Learn做监督学习的入门例子.
- 《The Natural Language Processing Dictionary》
介绍:这是一本自然语言处理的词典,从1998年开始到目前积累了成千上万的专业词语解释,如果你是一位刚入门的朋友.可以借这本词典让自己成长更快.
- 《PageRank Approach to Ranking National Football Teams》
介绍:通过分析1930年至今的比赛数据,用PageRank计算世界杯参赛球队排行榜.
- 《R Tutorial》
介绍:R语言教程,此外还推荐一个R语言教程An Introduction to R.
- 《Fast unfolding of communities in large networks》
介绍:经典老文,复杂网络社区发现的高效算法,Gephi中的Community detection即基于此.
- 《NUML》
介绍: 一个面向 .net 的开源机器学习库,github地址
- 《synaptic.Js》
介绍: 支持node.js的JS神经网络库,可在客户端浏览器中运行,支持LSTM等 github地址
- 《Machine learning for package users with R (1): Decision Tree》
介绍: 决策树
- 《Deep Learning, The Curse of Dimensionality, and Autoencoders》
介绍: 讨论深度学习自动编码器如何有效应对维数灾难,国内翻译
- 《Advanced Optimization and Randomized Methods》
介绍: CMU的优化与随机方法课程,由A. Smola和S. Sra主讲,优化理论是机器学习的基石,值得深入学习 国内云(视频)
- 《CS231n: Convolutional Neural Networks for Visual Recognition》
介绍: "面向视觉识别的CNN"课程设计报告集锦.近百篇,内容涉及图像识别应用的各个方面
- 《Topic modeling with LDA: MLlib meets GraphX》
介绍:用Spark的MLlib+GraphX做大规模LDA主题抽取.
- 《Deep Learning for Multi-label Classification》
介绍: 基于深度学习的多标签分类,用基于RBM的DBN解决多标签分类(特征)问题
- 《Google DeepMind publications》
介绍: DeepMind论文集锦
- 《kaldi》
介绍: 一个开源语音识别工具包,它目前托管在sourceforge上面
- 《Data Journalism Handbook》
介绍: 免费电子书《数据新闻手册》, 国内有热心的朋友翻译了中文版,大家也可以在线阅读
- 《Data Mining Problems in Retail》
介绍: 零售领域的数据挖掘文章.
- 《Understanding Convolution in Deep Learning》
介绍: 深度学习卷积概念详解,深入浅出.
- 《pandas: powerful Python data analysis toolkit》
介绍: 非常强大的Python的数据分析工具包.
- 《Text Analytics 2015》
介绍: 2015文本分析(商业)应用综述.
- 《Deep Learning libraries and first experiments with Theano》
介绍: 深度学习框架、库调研及Theano的初步测试体会报告.
- 《DEEP learning》
介绍: MIT的Yoshua Bengio等人讲深度学习的新书,还未定稿,线上提供Draft chapters收集反馈,超赞!强烈推荐.
- 《simplebayes》
介绍: Python下开源可持久化朴素贝叶斯分类库.
- 《Paracel》
介绍:Paracel is a distributed computational framework designed for machine learning problems, graph algorithms and scientific computing in C++.
- 《HanLP:Han Language processing》
介绍: 开源汉语言处理包.
- 《Simple Neural Network implementation in Ruby》
介绍: 使用Ruby实现简单的神经网络例子.
- 《Hacker's guide to Neural Networks》
介绍:神经网络黑客入门.
- 《The Open-Source Data Science Masters》
介绍:好多数据科学家名人推荐,还有资料.
- 《Text Understanding from Scratch》
介绍:实现项目已经开源在github上面Crepe
- 《 Improving Distributional Similarity with Lessons Learned from Word Embeddings》
介绍:作者发现,经过调参,传统的方法也能和word2vec取得差不多的效果。另外,无论作者怎么试,GloVe都比不过word2vec.
- 《CS224d: Deep Learning for Natural Language Processing》
介绍:Stanford深度学习与自然语言处理课程,Richard Socher主讲.
- 《Math Essentials in Machine Learning》
介绍:机器学习中的重要数学概念.
- 《Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks》
介绍:用于改进语义表示的树型LSTM递归神经网络,句子级相关性判断和情感分类效果很好.实现代码.
- 《Statistical Machine Learning》
介绍:卡耐基梅隆Ryan Tibshirani和Larry Wasserman开设的机器学习课程,先修课程为机器学习(10-715)和中级统计学(36-705),聚焦统计理论和方法在机器学习领域应用.
- 《AM207: Monte Carlo Methods, Stochastic Optimization》
介绍:《哈佛大学蒙特卡洛方法与随机优化课程》是哈佛应用数学研究生课程,由V Kaynig-Fittkau、P Protopapas主讲,Python程序示例,对贝叶斯推理感兴趣的朋友一定要看看,提供授课视频及课上IPN讲义.
- 《生物医学的SPARK大数据应用》
介绍:生物医学的SPARK大数据应用.并且伯克利开源了他们的big data genomics系统ADAM,其他的内容可以关注一下官方主页.
- 《ACL Anthology》
介绍:对自然语言处理技术或者机器翻译技术感兴趣的亲们,请在提出自己牛逼到无以伦比的idea(自动归纳翻译规律、自动理解语境、自动识别语义等等)之前,请通过谷歌学术简单搜一下,如果谷歌不可用,这个网址有这个领域几大顶会的论文列表,切不可断章取义,胡乱假设.
- 《Twitter Sentiment Detection via Ensemble Classification Using Averaged Confidence Scores》
介绍:论文+代码:基于集成方法的Twitter情感分类,实现代码.
- 《NIPS 2014 CIML workshop》
介绍:NIPS CiML 2014的PPT,NIPS是神经信息处理系统进展大会的英文简称.
- 《CS231n: Convolutional Neural Networks for Visual Recognition》
介绍:斯坦福的深度学习课程的Projects 每个人都要写一个论文级别的报告 里面有一些很有意思的应用 大家可以看看 .
- 《A Speed Comparison Between Flexible Linear Regression Alternatives in R》
介绍:R语言线性回归多方案速度比较具体方案包括lm()、nls()、glm()、bayesglm()、nls()、mle2()、optim()和Stan’s optimizing()等.
- 《Back-to-Basics Weekend Reading - Machine Learning》
介绍:文中提到的三篇论文(机器学习那些事、无监督聚类综述、监督分类综述)都很经典,Domnigos的机器学习课也很精彩
- 《A Probabilistic Theory of Deep Learning》
介绍:莱斯大学(Rice University)的深度学习的概率理论.
- 《Nonsensical beer reviews via Markov chains》
介绍:基于马尔可夫链自动生成啤酒评论的开源Twitter机器人,github地址.
- 《Deep Learning for Natural Language Processing (without Magic)》
介绍:视频+讲义:深度学习用于自然语言处理教程(NAACL13).
- 《Introduction to Data Analysis using Machine Learning》
介绍:用机器学习做数据分析,David Taylor最近在McGill University研讨会上的报告,还提供了一系列讲机器学习方法的ipn,很有价值 GitHub.国内
- 《Beyond Short Snippets: Deep Networks for Video Classification》
介绍:基于CNN+LSTM的视频分类,google演示.
- 《How does Quora use machine learning in 2015?》
介绍:Quora怎么用机器学习.
- 《Amazon Machine Learning – Make Data-Driven Decisions at Scale》
介绍:亚马逊在机器学习上面的一些应用,代码示例.
- 《Parallel Machine Learning with scikit-learn and IPython》
介绍:并行机器学习指南(基于scikit-learn和IPython).notebook
- 《Intro to machine learning with scikit-learn》
介绍:DataSchool的机器学习基本概念教学.
- 《DeepCLn》
介绍:一个基于OpenGL实现的卷积神经网络,支持Linux及Windows系.
- 《An Inside Look at the Components of a Recommendation Engine》
介绍:基于Mahout和Elasticsearch的推荐系统.
- 《Forecasting in Economics, Business, Finance and Beyond》
介绍:Francis X. Diebold的《(经济|商业|金融等领域)预测方法.
- 《Time Series Econometrics - A Concise Course》
介绍:Francis X. Diebold的《时序计量经济学》.
- 《A comparison of open source tools for sentiment analysis》
介绍:基于Yelp数据集的开源情感分析工具比较,评测覆盖Naive Bayes、SentiWordNet、CoreNLP等 .
- 《Pattern Recognition And Machine Learning》
介绍:国内Pattern Recognition And Machine Learning读书会资源汇总,各章pdf讲稿,博客.
- 《Probabilistic Data Structures for Web Analytics and Data Mining 》
介绍:用于Web分析和数据挖掘的概率数据结构.
- 《Machine learning in navigation devices: detect maneuvers using accelerometer and gyroscope》
介绍:机器学习在导航上面的应用.
- 《Neural Networks Demystified 》
介绍:Neural Networks Demystified系列视频,Stephen Welch制作,纯手绘风格,浅显易懂,国内云.
- 《swirl + DataCamp 》
介绍:{swirl}数据训练营:R&数据科学在线交互教程.
- 《Learning to Read with Recurrent Neural Networks 》
介绍:关于深度学习和RNN的讨论 Sequence to Sequence Learning with Neural Networks.
- 《深度强化学习(Deep Reinforcement Learning)的资源》
介绍:Deep Reinforcement Learning.
- 《Machine Learning with Scikit-Learn》
介绍:(PyCon2015)Scikit-Learn机器学习教程,Parallel Machine Learning with scikit-learn and IPython.
- 《PDNN》
介绍:PDNN: A Python Toolkit for Deep Learning.
- 《Introduction to Machine Learning》
介绍:15年春季学期CMU的机器学习课程,由Alex Smola主讲,提供讲义及授课视频,很不错.国内镜像.
- 《Big Data Processing》
介绍:大数据处理课.内容覆盖流处理、MapReduce、图算法等.
- 《Spark MLlib: Making Practical Machine Learning Easy and Scalable》
介绍:用Spark MLlib实现易用可扩展的机器学习,国内镜像.
- 《Picture: A Probabilistic Programming Language for Scene Perception》
介绍:以往上千行代码概率编程(语言)实现只需50行.
- 《Beautiful plotting in R: A ggplot2 cheatsheet》
介绍:ggplot2速查小册子,另外一个,此外还推荐《A new data processing workflow for R: dplyr, magrittr, tidyr, ggplot2》.
- 《Using Structured Events to Predict Stock Price Movement: An Empirical Investigation》
介绍:用结构化模型来预测实时股票行情.
- 《International Joint Conference on Artificial Intelligence Accepted paper》
介绍:国际人工智能联合会议录取论文列表,大部分论文可使用Google找到.
- 《Why GEMM is at the heart of deep learning》
介绍:一般矩阵乘法(GEMM)对深度学习的重要性.
- 《Distributed (Deep) Machine Learning Common》
介绍:A Community of awesome Distributed Machine Learning C++ projects.
- 《Reinforcement Learning: An Introduction》
介绍:免费电子书<强化学习介绍>,第一版(1998),第二版(2015草稿),相关课程资料,Reinforcement Learning.
- 《Free ebook: Microsoft Azure Essentials: Azure Machine Learning》
介绍:免费书:Azure ML使用精要.
- 《A Deep Learning Tutorial: From Perceptrons to Deep Networks》
介绍:A Deep Learning Tutorial: From Perceptrons to Deep Networks.
- 《Machine Learning is Fun! - The world’s easiest introduction to Machine Learning》
介绍:有趣的机器学习:最简明入门指南,中文版.
- 《A Brief Overview of Deep Learning》
介绍:深度学习简明介绍,中文版.
- 《Wormhole》
介绍:Portable, scalable and reliable distributed machine learning.
- 《convnet-benchmarks》
介绍:CNN开源实现横向评测,参评框架包括Caffe 、Torch-7、CuDNN 、cudaconvnet2 、fbfft、Nervana Systems等,NervanaSys表现突出.
- 《This catalogue lists resources developed by faculty and students of the Language Technologies Institute.》
介绍:卡耐基梅隆大学计算机学院语言技术系的资源大全,包括大量的NLP开源软件工具包,基础数据集,论文集,数据挖掘教程,机器学习资源.
- 《Sentiment Analysis on Twitter》
介绍:Twitter情感分析工具SentiTweet,视频+讲义.
- 《Machine Learning Repository @ Wash U》
介绍:华盛顿大学的Machine Learning Paper Repository.
- 《Machine learning cheat sheet》
介绍:机器学习速查表.
- 《Spark summit east 2015 agenda》
介绍:最新的Spark summit会议资料.
- 《Spark summit east 2015 agenda》
介绍:最新的Spark summit会议资料.
- 《Learning Spark》
介绍:Ebook Learning Spark.
- 《Advanced Analytics with Spark, Early Release Edition》
介绍:Ebook Advanced Analytics with Spark, Early Release Edition.
- 《国内机器学习算法及应用领域人物篇:唐杰》
介绍:清华大学副教授,是图挖掘方面的专家。他主持设计和实现的Arnetminer是国内领先的图挖掘系统,该系统也是多个会议的支持商.
- 《国内机器学习算法及应用领域人物篇:杨强》
介绍:迁移学习的国际领军人物.
- 《国内机器学习算法及应用领域人物篇:周志华》
介绍:在半监督学习,multi-label学习和集成学习方面在国际上有一定的影响力.
- 《国内机器学习算法及应用领域人物篇:王海峰》
介绍:信息检索,自然语言处理,机器翻译方面的专家.
- 《国内机器学习算法及应用领域人物篇:吴军》
介绍:吴军博士是当前Google中日韩文搜索算法的主要设计者。在Google其间,他领导了许多研发项目,包括许多与中文相关的产品和自然语言处理的项目,他的新个人主页.
- 《Cat Paper Collection》
介绍:喵星人相关论文集.
- 《How to Evaluate Machine Learning Models, Part 1: Orientation》
介绍:如何评价机器学习模型系列文章,How to Evaluate Machine Learning Models, Part 2a: Classification Metrics,How to Evaluate Machine Learning Models, Part 2b: Ranking and Regression Metrics.
- 《Building a new trends experience》
介绍:Twitter新trends的基本实现框架.
- 《Storm Blueprints: Patterns for Distributed Real-time Computation》
介绍:Storm手册,国内有中文翻译版本,谢谢作者.
- 《SmileMiner》
介绍:Java机器学习算法库SmileMiner.
- 《机器翻译学术论文写作方法和技巧》
介绍:机器翻译学术论文写作方法和技巧,Simon Peyton Jones的How to write a good research paper同类视频How to Write a Great Research Paper,how to paper talk.
- 《神经网络训练中的Tricks之高效BP(反向传播算法)》
介绍:神经网络训练中的Tricks之高效BP,博主的其他博客也挺精彩的.
- 《我和NLP的故事》
介绍:作者是NLP方向的硕士,短短几年内研究成果颇丰,推荐新入门的朋友阅读.
- 《The h Index for Computer Science 》
介绍:UCLA的Jens Palsberg根据Google Scholar建立了一个计算机领域的H-index牛人列表,我们熟悉的各个领域的大牛绝大多数都在榜上,包括1位诺贝尔奖得主,35位图灵奖得主,近百位美国工程院/科学院院士,300多位ACM Fellow,在这里推荐的原因是大家可以在google通过搜索牛人的名字来获取更多的资源,这份资料很宝贵.
- 《Structured Learning for Taxonomy Induction with Belief Propagation》
介绍:用大型语料库学习概念的层次关系,如鸟是鹦鹉的上级,鹦鹉是虎皮鹦鹉的上级。创新性在于模型构造,用因子图刻画概念之间依存关系,因引入兄弟关系,图有环,所以用有环扩散(loopy propagation)迭代计算边际概率(marginal probability).
- 《Bayesian analysis》
介绍: 这是一款贝叶斯分析的商业软件,官方写的贝叶斯分析的手册有250多页,虽然R语言 已经有类似的项目,但毕竟可以增加一个可选项.
- 《deep net highlights from 2014》
介绍:deep net highlights from 2014.
- 《Fast R-CNN》
介绍:This paper proposes Fast R-CNN, a clean and fast framework for object detection.
- 《Fingerprinting Images for Near-Duplicate Detection》
介绍:图像指纹的重复识别,作者源码,国内翻译版本.
- 《The Computer Vision Industry 》
介绍:提供计算机视觉、机器视觉应用的公司信息汇总.应用领域包括:自动辅助驾驶和交通管理、眼球和头部跟踪、影视运动分析、影视业、手势识别、通用视觉系统、各种工业自动化和检验、医药和生物、移动设备目标识别和AR、人群跟踪、摄像、安全监控、生物监控、三维建模、web和云应用.
- 《Seaborn: statistical data visualization》
介绍:Python版可视化数据统计开源库.
- 《IPython lecture notes for OCW MIT 18.06》
介绍:麻省理工Gilbert Strang线性代数课程笔记,Gilbert Strang《Linear Algebra》课程主页视频+讲义.
- 《Canova: A Vectorization Lib for ML》
介绍:面向机器学习/深度学习的数据向量化工具Canova,github, 支持CSV文件、MNIST数据、TF-IDF/Bag of Words/word2vec文本向量化.
- 《DZone Refcardz: Distributed Machine Learning with Apache Mahout》
介绍:快速入门:基于Apache Mahout的分布式机器学习.
- 《Learning scikit-learn: Machine Learning in Python》
介绍:基于scikit-learn讲解了一些机器学习技术,如SVM,NB,PCA,DT,以及特征工程、特征选择和模型选择问题.
- 《Lightning fast Machine Learning with Spark》
介绍:基于Spark的高效机器学习,视频地址.
- 《How we’re using machine learning to fight shell selling》
介绍:WePay用机器学习对抗信用卡"shell selling"诈骗.
- 《Data Scientists Thoughts that Inspired Me》
介绍:16位数据科学家语录精选.
- 《Deep learning applications and challenges in big data analytics》
介绍:深度学习在大数据分析领域的应用和挑战.
- 《Free book:Machine Learning,Mathematics》
介绍:免费的机器学习与数学书籍,除此之外还有其他的免费编程书籍,编程语言,设计,操作系统等.
- 《Object detection via a multi-region & semantic segmentation-aware CNN model》
介绍:一篇关于CNN模型对象识别Paper.
- 《A Statistical View of Deep Learning (V): Generalisation and Regularisation》
介绍:深度学习的统计分析V:泛化和正则化.
- 《Highway Networks》
介绍:用SGD能高效完成训练的大规模(多层)深度网络HN.
- 《What I Read For Deep-Learning》
介绍:深度学习解读文章.
- 《An Introduction to Recommendation Engines》
介绍:Coursera上的推荐系统导论(Introduction to Recommender Systems)公开课.
- 《Stanford Machine Learning》
介绍:Andrew Ng经典机器学习课程笔记.
- 《ICLR 2015》
介绍:ICLR 2015见闻录,博客的其他机器学习文章也不错.
- 《Stanford Machine Learning》
介绍:推荐系统"个性化语义排序"模型.
- 《The More Excited We Are, The Shorter We Tweet》
介绍:激情时分更惜字——MIT的最新Twitter研究结果.
- 《苏州大学人类语言技术研究论文主页》
介绍:苏州大学人类语言技术研究相关论文.
- 《Neural Turing Machines implementation》
介绍:实现神经图灵机(NTM),项目地址,此外推荐相关神经图灵机算法.
- 《Computer Vision - CSE 559A, Spring 2015》
介绍:华盛顿大学的机器视觉(2015),参考资料Computer Vision: Algorithms and Applications.
- 《Mining of Massive Datasets》
介绍:"Mining of Massive Datasets"发布第二版,Jure Leskovec, Anand Rajaraman, Jeff Ullman 新版增加Jure Leskovec作为合作作者,新增社交网络图数据挖掘、降维和大规模机器学习三章,电子版依旧免费.
- 《Learning Deep Learning》
介绍:一个深度学习资源页,资料很丰富.
- 《Learning Deep Learning》
介绍:免费电子书"Learning Deep Learning".
- 《Tutorial: Machine Learning for Astronomy with Scikit-learn》
介绍:Machine Learning for Astronomy with scikit-learn.
- 《An Introduction to Random Forests for Beginners》
介绍:免费电子书"随机森林入门指南".
- 《Top 10 data mining algorithms in plain English》
介绍:白话数据挖掘十大算法.
- 《An Inside Look at the Components of a Recommendation Engine》
介绍:基于Mahout和Elasticsearch的推荐系统,国内译版.
- 《Advances in Extreme Learning Machines》
介绍:博士学位论文:ELM研究进展.
- 《10-minute tour of pandas》
介绍:Pandas十分钟速览,ipn.
- 《Data doesn't grow in tables: harvesting journalistic insight from documents》
介绍:面向数据新闻的文本挖掘.
- 《Time-lapse Mining from Internet Photos》
介绍:用网络图片合成延时视频(SIGGRAPH 2015).
- 《The Curse of Dimensionality in classification》
介绍:分类系统的维数灾难.
- 《Deep Learning vs Big Data: Who owns what?》
介绍:深度学习vs.大数据——从数据到知识:版权的思考,[翻译版](深度学习 vs. 大数据:神经网络权值的版权属于谁?-CSDN.NET
- 《A Primer on Predictive Models》
介绍:预测模型入门.
- 《Demistifying LSTM Neural Networks》
介绍:深入浅出LSTM.
- 《ICLR 2015》
介绍:2015年ICLR会议视频与讲义.
- 《On Visualizing Data Well》
介绍:Ben Jones的数据可视化建议.
- 《Decoding Dimensionality Reduction, PCA and SVD》
介绍:解读数据降维/PCA/SVD.
- 《Supervised learning superstitions cheat sheet》
介绍:IPN:监督学习方法示例/对比参考表,覆盖logistic回归, 决策树, SVM, KNN, Naive Bayes等方法.
- 《DopeLearning: A Computational Approach to Rap Lyrics Generation》
介绍:基于RankSVM和DNN自动(重组)生成Rap歌词.
- 《An Introduction to Random Indexing》
介绍:随机索引RI词空间模型专题.
- 《VDiscover》
介绍:基于机器学习的漏洞检测工具VDiscover.
- 《Minerva》
介绍:深度学习系统minerva。拥有python编程接口。多GPU几乎达到线性加速。在4块GPU上能在4天内将GoogLeNet训练到68.7%的top-1以及89.0%的top-5准确率。和同为dmlc项目的cxxnet相比,采用动态数据流引擎,提供更多灵活性。未来将和cxxnet一起整合为mxnet项目,互取优势.
- 《CVPR 2015 paper》
介绍:2015年国际计算机视觉与模式识别会议paper.
- 《What are the advantages of different classification algorithms?》
介绍:Netflix工程总监眼中的分类算法:深度学习优先级最低,中文版.
- 《Results for Microsoft COCO Image Captioning Challenge》
介绍:Codalab图像标注竞赛排行+各家论文,Reddit上flukeskywalker整理了各家技术相关论文.
- 《Caffe con Troll: Shallow Ideas to Speed Up Deep Learning》
介绍:基于Caffe的加速深度学习系统CcT.
- 《Low precision storage for deep learning》
介绍:深度学习(模型)低精度(训练与)存储.
- 《Model-Based Machine Learning (Early Access)》
介绍:新书预览:模型机器学习.
- 《Regret Analysis of Stochastic and Nonstochastic Multi-armed Bandit Problems》
介绍:免费电子书多臂老虎机,此外推荐Introduction to Bandits: Algorithms and Theory.
- 《Kaggle R Tutorial on Machine Learing》
介绍:基于Kaggle's Titanic Competition的交互式R机器学习教程,介绍《Interactive R Tutorial: Machine Learning for the Titanic Competition》.
- 《Deep Learning(深度学习)学习笔记整理系列》
介绍:Deep Learning(深度学习)学习笔记整理系列.
- 《Introduction to Neural Machine Translation with GPUs 》
介绍:神经(感知)机器翻译介绍.
- 《Andrew Ng: Deep Learning, Self-Taught Learning and Unsupervised Feature Learning》
介绍:Andrew Ng关于深度学习/自学习/无监督特征学习的报告,国内云.
- 《Recurrent Neural Network Training with Dark Knowledge Transfer》
介绍:论文:通过潜在知识迁移训练RNN.
- 《Show Me The Money》
介绍:面向金融数据的情感分析工具.
- 《pyLDAvis》
介绍:(Python)主题模型交互可视化库pyLDAvis.
- 《Logistic Regression and Gradient Descent》
介绍:Logistic回归与优化实例教程.
- 《贾扬清微信讲座记录》
介绍:贾扬清(谷歌大脑科学家、caffe缔造者)微信讲座记录.
- 《sketch》
介绍:Theano/Blocks实现RNN手写字符串生成sketch.
- 《Web Scale Document Clustering: Clustering 733 Million Web Pages》
介绍:基于TopSig的海量(7亿+)网页聚类.
- 《NAACL 2015 Proceedings on ACL Anthology》
介绍:NAACL 2015 论文papers.
- 《Stock Forecasting With Machine Learning - Seven Possible Errors》
介绍:机器学习预测股市的七个问题.
- 《Are there any good resources for learning about neural networks?》
介绍:神经网络学习资料推荐.
- 《A Critical Review of Recurrent Neural Networks for Sequence Learning》
介绍:面向序列学习的RNN综述.
- 《Handling and Processing Strings in R》
介绍:R文本处理手册.
- 《Must-watch videos about Python》
介绍:“必看”的Python视频集锦.
- 《The Google Stack》
介绍:Google(基础结构)栈.
- 《Randomized Algorithms for Matrices and Data》
介绍:矩阵和数据的随机算法(UC Berkeley 2013).
- 《Intermediate R》
介绍:DataCamp中级R语言教程.
- 《Topology Without Tears》
介绍:免费电子书:轻松掌握拓扑学,中文版.
- 《Information Theory, Pattern Recognition, and Neural Networks》
介绍:Book,video.
- 《Scikit-learn》
介绍:Scikit-learn 是基于Scipy为机器学习建造的的一个Python模块,他的特色就是多样化的分类,回归和聚类的算法包括支持向量机,逻辑回归,朴素贝叶斯分类器,随机森林,Gradient Boosting,聚类算法和DBSCAN。而且也设计出了Python numerical和scientific libraries Numpy and Scipy
- 《Pylearn2》
介绍:Pylearn是一个让机器学习研究简单化的基于Theano的库程序。
- 《NuPIC》
介绍:NuPIC是一个以HTM学习算法为工具的机器智能平台。HTM是皮层的精确计算方法。HTM的核心是基于时间的持续学习算法和储存和撤销的时空模式。NuPIC适合于各种各样的问题,尤其是检测异常和预测的流数据来源。
- 《Nilearn》
介绍:Nilearn 是一个能够快速统计学习神经影像数据的Python模块。它利用Python语言中的scikit-learn 工具箱和一些进行预测建模,分类,解码,连通性分析的应用程序来进行多元的统计。
- 《PyBrain》
介绍:Pybrain是基于Python语言强化学习,人工智能,神经网络库的简称。 它的目标是提供灵活、容易使用并且强大的机器学习算法和进行各种各样的预定义的环境中测试来比较你的算法。
- 《Pattern》
介绍:Pattern 是Python语言下的一个网络挖掘模块。它为数据挖掘,自然语言处理,网络分析和机器学习提供工具。它支持向量空间模型、聚类、支持向量机和感知机并且用KNN分类法进行分类。
- 《Fuel》
介绍:Fuel为你的机器学习模型提供数据。他有一个共享如MNIST, CIFAR-10 (图片数据集), Google’s One Billion Words (文字)这类数据集的接口。你使用他来通过很多种的方式来替代自己的数据。
- 《Bob》
介绍:Bob是一个免费的信号处理和机器学习的工具。它的工具箱是用Python和C++语言共同编写的,它的设计目的是变得更加高效并且减少开发时间,它是由处理图像工具,音频和视频处理、机器学习和模式识别的大量软件包构成的。
- 《Skdata》
介绍:Skdata是机器学习和统计的数据集的库程序。这个模块对于玩具问题,流行的计算机视觉和自然语言的数据集提供标准的Python语言的使用。
- 《MILK》
介绍:MILK是Python语言下的机器学习工具包。它主要是在很多可得到的分类比如SVMS,K-NN,随机森林,决策树中使用监督分类法。 它还执行特征选择。 这些分类器在许多方面相结合,可以形成不同的例如无监督学习、密切关系金传播和由MILK支持的K-means聚类等分类系统。
- 《IEPY》
介绍:IEPY是一个专注于关系抽取的开源性信息抽取工具。它主要针对的是需要对大型数据集进行信息提取的用户和想要尝试新的算法的科学家。
- 《Quepy》
介绍:Quepy是通过改变自然语言问题从而在数据库查询语言中进行查询的一个Python框架。他可以简单的被定义为在自然语言和数据库查询中不同类型的问题。所以,你不用编码就可以建立你自己的一个用自然语言进入你的数据库的系统。现在Quepy提供对于Sparql和MQL查询语言的支持。并且计划将它延伸到其他的数据库查询语言。
- 《Hebel》
介绍:Hebel是在Python语言中对于神经网络的深度学习的一个库程序,它使用的是通过PyCUDA来进行GPU和CUDA的加速。它是最重要的神经网络模型的类型的工具而且能提供一些不同的活动函数的激活功能,例如动力,涅斯捷罗夫动力,信号丢失和停止法。
- 《mlxtend》
介绍:它是一个由有用的工具和日常数据科学任务的扩展组成的一个库程序。
- 《nolearn》
介绍:这个程序包容纳了大量能对你完成机器学习任务有帮助的实用程序模块。其中大量的模块和scikit-learn一起工作,其它的通常更有用。
- 《Ramp》
介绍:Ramp是一个在Python语言下制定机器学习中加快原型设计的解决方案的库程序。他是一个轻型的pandas-based机器学习中可插入的框架,它现存的Python语言下的机器学习和统计工具(比如scikit-learn,rpy2等)Ramp提供了一个简单的声明性语法探索功能从而能够快速有效地实施算法和转换。
- 《Feature Forge》
介绍:这一系列工具通过与scikit-learn兼容的API,来创建和测试机器学习功能。这个库程序提供了一组工具,它会让你在许多机器学习程序使用中很受用。当你使用scikit-learn这个工具时,你会感觉到受到了很大的帮助。(虽然这只能在你有不同的算法时起作用。)
- 《REP》
介绍:REP是以一种和谐、可再生的方式为指挥数据移动驱动所提供的一种环境。它有一个统一的分类器包装来提供各种各样的操作,例如TMVA, Sklearn, XGBoost, uBoost等等。并且它可以在一个群体以平行的方式训练分类器。同时它也提供了一个交互式的情节。
- 《Python 学习机器样品》
介绍:用亚马逊的机器学习建造的简单软件收集。
- 《Python-ELM》
介绍:这是一个在Python语言下基于scikit-learn的极端学习机器的实现。
- 《Dimension Reduction》
介绍:电子书降维方法,此外还推荐Dimensionality Reduction A Short Tutorial、Matlab Toolbox for Dimensionality Reduction、Unsupervised Kernel Dimension Reduction
- 《Datasets Used For Benchmarking Deep Learning Algorithms》
介绍:http://deeplearning.net整理的深度学习数据集列表.
- 《Golang Natural Language Processing》
介绍:Go语言编写的自然语言处理工具.
- 《Rehabilitation of Count-based Models for Word Vector Representations》
介绍:词频模型对词向量的反击,参考Improving Distributional Similarity with Lessons Learned from Word Embeddings 。
- 《Three Aspects of Predictive Modeling》
介绍:预测模型的三个方面.
- 《CS224d: Deep Learning for Natural Language Processing》
介绍:斯坦福大学深度学习与自然语言处理课程,部分课程笔记词向量、引言
- 《Google Computer Vision research at CVPR 2015》
介绍:CVPR2015上Google的CV研究列表.
- 《Using Deep Learning to Find Basketball Highlights》
介绍:利用(Metamind)深度学习自动发现篮球赛精彩片段.
But talk is cheap, show me the code。自己徒手撸一遍很重要啊,开源的工具包工程量大,代码还是C++,看的眼花怎么办?
没错我就是来打广告的!!!:
一个简单的CNN实现(Python)
GitHub - Eniac-Xie/PyConvNet: Convolutional Neural Network for python users
现在有很多深度学习工具包各种C++各种第三方依赖,适合拿来跑实验却不适合拿来入门CNN。所以就用python写了一个简单的CNN,跑一跑mnist、cifar还是可以的。
评论区有知友提出im2col比较难看懂的问题,im2col是convolution层的核心操作,使我们可以用矩阵乘代替卷积计算,这样实现上更简单,不过也占用了更多的内存。
caffe中的im2col貌似使用了4层for循环,而我是用python实现的,大量的for循环会降低程序的效率,所以做了一些优化,不可避免的降低了代码的可读性。
其他回答者资料给的很充足了,这里补充点类似于学习路径的东西。
一个领域的成功,既要看自身的努力,也要考虑到历史的进程。 学习深度学习的一个很好的路线就是跟着历史的进程学习一番。
除了一些基础的机器学习知识,在学习和理解Deep Learning之前,需要先对于Neural Network和AutoEncoder这两个模型有所了解,特别是后者,AutoEncoder的隐藏层与输入层的关系、使用AutoEncoder来pre-training一个多层网络。
下一步就是要理解『简单的增加神经网络深度』会遇到什么问题。比如diffusion of gradients,比如严重的over-fitting,比如计算时间开销。
继续下去,要知道这些问题的原因与解决办法,这一步就映射到神经网络向深度学习的发展过程,比如pre-training(甚至包括大约在10年左右,pre-training技术的变化)、dropout、ReLU等技术的出现以及我们现在有能力(计算能力、相对于以前的大数据量)处理深层网络。
到这里,初步理解通常意义的Deep Learning模型就是深度神经网络。
但是接下来的才是关键。
对于不同的应用方向,有不同的具体的DNN的模型,比如CNN之于图像,RNN之于NLP。
这里以CNN为例子。CNN的特殊的一些地方在于:卷积、池化、子采样、白化、权值共享等等非常多的技术。每一个都是一个概念/方法。这是CNN所特有的。如何理解这些技术呢?
动手实现一个LeNet然后跑一下Minst数据集的手写识别(或者自己搞点图像数据),学以致用,会帮助建立好的直觉,甚至可能不懂的地方也慢慢理解了。
不过一个比较有趣的概念是 卷积。
------这个地方说得不是很好,但是我也不知道怎么表达更清楚点------
卷积这个东西有很多种理解方式:比如信号处理的理解、数学/物理上的理解、或者我的理解 :-D
『个人现在持有的看法是,这些技术都围绕一个重要的观点:减少网络参数(包括卷积也是有这个功能的)。其实每一个技术,都有自己更具体的意义,但是有共性的地方』。
对于使用CNN,要知道现在最常用的方法:AlexNet等的pre-training+具体问题的fine-tuning这种手段: 一定要读一下一些相关paper。
至于RNN,个人的经验是建议大家看一看Neural Network Language Model相关的工作。
还有就是一定要动手,关于Deep Learning的库,除了经典的Caffe和Theano,这里推荐大家使用MXNet和TensorFlow。MXNet最令我喜欢的一点就是依赖极少(对我就是这么low。。。),轻便、易用以及丰富的文档和活跃的开发者社区;而TensorFlow,说真的这半年以来让我非常惊讶,具体参见这篇文章: 深度学习框架大
除此之外,关于TensorFlow最近的进展<转自微博>:
TF迭代太快了,性能已经不比别的差了 GitHub - soumith/convnet-benchmarks: Easy benchmarking of all publicly accessible implementations of convnets ,这篇文章发时还是用cudnnv2,现在已经是v4了,v5版也在进行中,分布式版本预计下一个release接口会倾向稳定,最近刚加上了一个完全随机森林实现--04.14更新--
昨天刚更新完答案,今早就看到Google最新博客:
http://googleresearch.blogspot.ru/2016/04/announcing-tensorflow-08-now-with.html
Ever since we released TensorFlow as an open-source project, distributed training support has been one of the most requested features. Now the wait is over.也就是说:TF的0.8版本中,分布式的支持已经Ready!
Today, we're excited to release TensorFlow 0.8 with distributed computing support, including everything you need to train distributed models on your own infrastructure.
点评:你大爷还是你大爷...
收藏之余,也给个赞吧~
建议研究前沿的东西,都从这里开始 GitHub - sindresorhus/awesome: A curated list of awesome lists 。 deep learning 从这里开始 GitHub - ChristosChristofidis/awesome-deep-learning: A curated list of awesome Deep Learning tutorials, projects and communities.
-------------------------------------------------------------------------------------------------------------------------
前言
- 入门的话看一看这三个部分:Courses, Videos and Lectures, Tutorials,选几个自己喜欢的开始看。
- 进阶学习看其他sections。
- 这个list可以作为你学习deep learning的roadmap~
- 点赞!!!
Table of Contents
-
Free Online Books
-
Courses
-
Videos and Lectures
-
Papers
-
Tutorials
-
Researchers
-
WebSites
-
Datasets
-
Frameworks
-
Miscellaneous
-
Contributing
Free Online Books
- Deep Learning by Yoshua Bengio, Ian Goodfellow and Aaron Courville (05/07/2015)
- Neural Networks and Deep Learning by Michael Nielsen (Dec 2014)
- Deep Learning by Microsoft Research (2013)
- Deep Learning Tutorial by LISA lab, University of Montreal (Jan 6 2015)
- neuraltalk by Andrej Karpathy : numpy-based RNN/LSTM implementation
- An introduction to genetic algorithms
- Artificial Intelligence: A Modern Approach
- Deep Learning in Neural Networks: An Overview
Courses
- Machine Learning - Stanford by Andrew Ng in Coursera (2010-2014)
- Machine Learning - Caltech by Yaser Abu-Mostafa (2012-2014)
- Machine Learning - Carnegie Mellon by Tom Mitchell (Spring 2011)
- Neural Networks for Machine Learning by Geoffrey Hinton in Coursera (2012)
- Neural networks class by Hugo Larochelle from Université de Sherbrooke (2013)
- Deep Learning Course by CILVR lab @ NYU (2014)
- A.I - Berkeley by Dan Klein and Pieter Abbeel (2013)
- A.I - MIT by Patrick Henry Winston (2010)
- Vision and learning - computers and brains by Shimon Ullman, Tomaso Poggio, Ethan Meyers @ MIT (2013)
- Convolutional Neural Networks for Visual Recognition - Stanford by Fei-Fei Li, Andrej Karpathy (2015)
- Convolutional Neural Networks for Visual Recognition - Stanford by Fei-Fei Li, Andrej Karpathy (2016)
- Deep Learning for Natural Language Processing - Stanford
- Neural Networks - usherbrooke
- Machine Learning - Oxford (2014-2015)
- Deep Learning - Nvidia (2015)
- Graduate Summer School: Deep Learning, Feature Learning by Geoffrey Hinton, Yoshua Bengio, Yann LeCun, Andrew Ng, Nando de Freitas and several others @ IPAM, UCLA (2012)
- Deep Learning - Udacity/Google by Vincent Vanhoucke and Arpan Chakraborty (2016)
- Deep Learning - UWaterloo by Prof. Ali Ghodsi at University of Waterloo (2015)
Videos and Lectures
- How To Create A Mind By Ray Kurzweil
- Deep Learning, Self-Taught Learning and Unsupervised Feature Learning By Andrew Ng
- Recent Developments in Deep Learning By Geoff Hinton
- The Unreasonable Effectiveness of Deep Learning by Yann LeCun
- Deep Learning of Representations by Yoshua bengio
- Principles of Hierarchical Temporal Memory by Jeff Hawkins
- Machine Learning Discussion Group - Deep Learning w/ Stanford AI Lab by Adam Coates
- Making Sense of the World with Deep Learning By Adam Coates
- Demystifying Unsupervised Feature Learning By Adam Coates
- Visual Perception with Deep Learning By Yann LeCun
- The Next Generation of Neural Networks By Geoffrey Hinton at GoogleTechTalks
- The wonderful and terrifying implications of computers that can learn By Jeremy Howard at TEDxBrussels
- Unsupervised Deep Learning - Stanford by Andrew Ng in Stanford (2011)
- Natural Language Processing By Chris Manning in Stanford
- A beginners Guide to Deep Neural Networks By Natalie Hammel and Lorraine Yurshansky
- Deep Learning: Intelligence from Big Data by Steve Jurvetson (and panel) at VLAB in Stanford.
Papers
- ImageNet Classification with Deep Convolutional Neural Networks
- Using Very Deep Autoencoders for Content Based Image Retrieval
- Learning Deep Architectures for AI
- CMU’s list of papers
- Neural Networks for Named Entity Recognitionzip
- Training tricks by YB
- Geoff Hinton's reading list (all papers)
- Supervised Sequence Labelling with Recurrent Neural Networks
- Statistical Language Models based on Neural Networks
- Training Recurrent Neural Networks
- Recursive Deep Learning for Natural Language Processing and Computer Vision
- Bi-directional RNN
- LSTM
- GRU - Gated Recurrent Unit
- GFRNN..
- LSTM: A Search Space Odyssey
- A Critical Review of Recurrent Neural Networks for Sequence Learning
- Visualizing and Understanding Recurrent Networks
- Wojciech Zaremba, Ilya Sutskever, An Empirical Exploration of Recurrent Network Architectures
- Recurrent Neural Network based Language Model
- Extensions of Recurrent Neural Network Language Model
- Recurrent Neural Network based Language Modeling in Meeting Recognition
- Deep Neural Networks for Acoustic Modeling in Speech Recognition
- Speech Recognition with Deep Recurrent Neural Networks
- Reinforcement Learning Neural Turing Machines
- Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation
- Google - Sequence to Sequence Learning with Nneural Networks
- Memory Networks
- Policy Learning with Continuous Memory States for Partially Observed Robotic Control
- Microsoft - Jointly Modeling Embedding and Translation to Bridge Video and Language
- Neural Turing Machines
- Ask Me Anything: Dynamic Memory Networks for Natural Language Processing
- Mastering the Game of Go with Deep Neural Networks and Tree Search
Tutorials
- UFLDL Tutorial 1
- UFLDL Tutorial 2
- Deep Learning for NLP (without Magic)
- A Deep Learning Tutorial: From Perceptrons to Deep Networks
- Deep Learning from the Bottom up
- Theano Tutorial
- Neural Networks for Matlab
- Using convolutional neural nets to detect facial keypoints tutorial
- Torch7 Tutorials
- The Best Machine Learning Tutorials On The Web
- VGG Convolutional Neural Networks Practical
- TensorFlow tutorials
- More TensorFlow tutorials
- TensorFlow Python Notebooks
- Keras and Lasagne Deep Learning Tutorials
Researchers
- Aaron Courville
- Abdel-rahman Mohamed
- Adam Coates
- Alex Acero
- Alex Krizhevsky
- Alexander Ilin
- Amos Storkey
- Andrej Karpathy
- Andrew M. Saxe
- Andrew Ng
- Andrew W. Senior
- Andriy Mnih
- Ayse Naz Erkan
- Benjamin Schrauwen
- Bernardete Ribeiro
- Bo David Chen
- Boureau Y-Lan
- Brian Kingsbury
- Christopher Manning
- Clement Farabet
- Dan Claudiu Cireșan
- David Reichert
- Derek Rose
- Dong Yu
- Drausin Wulsin
- Erik M. Schmidt
- Eugenio Culurciello
- Frank Seide
- Galen Andrew
- Geoffrey Hinton
- George Dahl
- Graham Taylor
- Grégoire Montavon
- Guido Francisco Montúfar
- Guillaume Desjardins
- Hannes Schulz
- Hélène Paugam-Moisy
- Honglak Lee
- Hugo Larochelle
- Ilya Sutskever
- Itamar Arel
- James Martens
- Jason Morton
- Jason Weston
- Jeff Dean
- Jiquan Mgiam
- Joseph Turian
- Joshua Matthew Susskind
- Jürgen Schmidhuber
- Justin A. Blanco
- Koray Kavukcuoglu
- KyungHyun Cho
- Li Deng
- Lucas Theis
- Ludovic Arnold
- Marc'Aurelio Ranzato
- Martin Längkvist
- Misha Denil
- Mohammad Norouzi
- Nando de Freitas
- Navdeep Jaitly
- Nicolas Le Roux
- Nitish Srivastava
- Noel Lopes
- Oriol Vinyals
- Pascal Vincent
- Patrick Nguyen
- Pedro Domingos
- Peggy Series
- Pierre Sermanet
- Piotr Mirowski
- Quoc V. Le
- Reinhold Scherer
- Richard Socher
- Rob Fergus
- Robert Coop
- Robert Gens
- Roger Grosse
- Ronan Collobert
- Ruslan Salakhutdinov
- Sebastian Gerwinn
- Stéphane Mallat
- Sven Behnke
- Tapani Raiko
- Tara Sainath
- Tijmen Tieleman
- Tom Karnowski
- Tomáš Mikolov
- Ueli Meier
- Vincent Vanhoucke
- Volodymyr Mnih
- Yann LeCun
- Yichuan Tang
- Yoshua Bengio
- Yotaro Kubo
- Youzhi (Will) Zou
WebSites
- deeplearning.net
- deeplearning.stanford.edu
- nlp.stanford.edu
- ai-junkie.com
- cs.brown.edu/research/ai
- eecs.umich.edu/ai
- cs.utexas.edu/users/ai-lab
- cs.washington.edu/research/ai
- aiai.ed.ac.uk
- www-aig.jpl.nasa.gov
- csail.mit.edu
- cgi.cse.unsw.edu.au/~aishare
- cs.rochester.edu/research/ai
- ai.sri.com
- isi.edu/AI/isd.htm
- nrl.navy.mil/itd/aic
- hips.seas.harvard.edu
- AI Weekly
- stat.ucla.edu
- deeplearning.cs.toronto.edu
- jeffdonahue.com/lrcn/
- visualqa.org
- www.mpi-inf.mpg.de/departments/computer-vision...
- Deep Learning News
Datasets
- MNIST Handwritten digits
- Google House Numbers from street view
- CIFAR-10 and CIFAR-1004.
- IMAGENET
- Tiny Images 80 Million tiny images6.
- Flickr Data 100 Million Yahoo dataset
- Berkeley Segmentation Dataset 500
- UC Irvine Machine Learning Repository
- Flickr 8k
- Flickr 30k
- Microsoft COCO
- VQA
- Image QA
- AT&T Laboratories Cambridge face database
- AVHRR Pathfinder
- Air Freight - The Air Freight data set is a ray-traced image sequence along with ground truth segmentation based on textural characteristics. (455 images + GT, each 160x120 pixels). (Formats: PNG)
- Amsterdam Library of Object Images - ALOI is a color image collection of one-thousand small objects, recorded for scientific purposes. In order to capture the sensory variation in object recordings, we systematically varied viewing angle, illumination angle, and illumination color for each object, and additionally captured wide-baseline stereo images. We recorded over a hundred images of each object, yielding a total of 110,250 images for the collection. (Formats: png)
- Annotated face, hand, cardiac & meat images - Most images & annotations are supplemented by various ASM/AAM analyses using the AAM-API. (Formats: bmp,asf)
- Image Analysis and Computer Graphics
- Brown University Stimuli - A variety of datasets including geons, objects, and "greebles". Good for testing recognition algorithms. (Formats: pict)
- CAVIAR video sequences of mall and public space behavior - 90K video frames in 90 sequences of various human activities, with XML ground truth of detection and behavior classification (Formats: MPEG2 & JPEG)
- Machine Vision Unit
- CCITT Fax standard images - 8 images (Formats: gif)
- CMU CIL's Stereo Data with Ground Truth - 3 sets of 11 images, including color tiff images with spectroradiometry (Formats: gif, tiff)
- CMU PIE Database - A database of 41,368 face images of 68 people captured under 13 poses, 43 illuminations conditions, and with 4 different expressions.
- CMU VASC Image Database - Images, sequences, stereo pairs (thousands of images) (Formats: Sun Rasterimage)
- Caltech Image Database - about 20 images - mostly top-down views of small objects and toys. (Formats: GIF)
- Columbia-Utrecht Reflectance and Texture Database - Texture and reflectance measurements for over 60 samples of 3D texture, observed with over 200 different combinations of viewing and illumination directions. (Formats: bmp)
- Computational Colour Constancy Data - A dataset oriented towards computational color constancy, but useful for computer vision in general. It includes synthetic data, camera sensor data, and over 700 images. (Formats: tiff)
- Computational Vision Lab
- Content-based image retrieval database - 11 sets of color images for testing algorithms for content-based retrieval. Most sets have a description file with names of objects in each image. (Formats: jpg)
- Efficient Content-based Retrieval Group
- Densely Sampled View Spheres - Densely sampled view spheres - upper half of the view sphere of two toy objects with 2500 images each. (Formats: tiff)
- Computer Science VII (Graphical Systems)
- Digital Embryos - Digital embryos are novel objects which may be used to develop and test object recognition systems. They have an organic appearance. (Formats: various formats are available on request)
- Univerity of Minnesota Vision Lab
- El Salvador Atlas of Gastrointestinal VideoEndoscopy - Images and Videos of his-res of studies taken from Gastrointestinal Video endoscopy. (Formats: jpg, mpg, gif)
- FG-NET Facial Aging Database - Database contains 1002 face images showing subjects at different ages. (Formats: jpg)
- FVC2000 Fingerprint Databases - FVC2000 is the First International Competition for Fingerprint Verification Algorithms. Four fingerprint databases constitute the FVC2000 benchmark (3520 fingerprints in all).
- Biometric Systems Lab - University of Bologna
- Face and Gesture images and image sequences - Several image datasets of faces and gestures that are ground truth annotated for benchmarking
- German Fingerspelling Database - The database contains 35 gestures and consists of 1400 image sequences that contain gestures of 20 different persons recorded under non-uniform daylight lighting conditions. (Formats: mpg,jpg)
- Language Processing and Pattern Recognition
- Groningen Natural Image Database - 4000+ 1536x1024 (16 bit) calibrated outdoor images (Formats: homebrew)
- ICG Testhouse sequence - 2 turntable sequences from ifferent viewing heights, 36 images each, resolution 1000x750, color (Formats: PPM)
- Institute of Computer Graphics and Vision
- IEN Image Library - 1000+ images, mostly outdoor sequences (Formats: raw, ppm)
- INRIA's Syntim images database - 15 color image of simple objects (Formats: gif)
- INRIA
- INRIA's Syntim stereo databases - 34 calibrated color stereo pairs (Formats: gif)
- Image Analysis Laboratory - Images obtained from a variety of imaging modalities -- raw CFA images, range images and a host of "medical images". (Formats: homebrew)
- Image Analysis Laboratory
- Image Database - An image database including some textures
- JAFFE Facial Expression Image Database - The JAFFE database consists of 213 images of Japanese female subjects posing 6 basic facial expressions as well as a neutral pose. Ratings on emotion adjectives are also available, free of charge, for research purposes. (Formats: TIFF Grayscale images.)
- ATR Research, Kyoto, Japan
- JISCT Stereo Evaluation - 44 image pairs. These data have been used in an evaluation of stereo analysis, as described in the April 1993 ARPA Image Understanding Workshop paper ``The JISCT Stereo Evaluation'' by R.C.Bolles, H.H.Baker, and M.J.Hannah, 263--274 (Formats: SSI)
- MIT Vision Texture - Image archive (100+ images) (Formats: ppm)
- MIT face images and more - hundreds of images (Formats: homebrew)
- Machine Vision - Images from the textbook by Jain, Kasturi, Schunck (20+ images) (Formats: GIF TIFF)
- Mammography Image Databases - 100 or more images of mammograms with ground truth. Additional images available by request, and links to several other mammography databases are provided. (Formats: homebrew)
- ftp://ftp.cps.msu.edu/pub/prip - many images (Formats: unknown)
- Middlebury Stereo Data Sets with Ground Truth - Six multi-frame stereo data sets of scenes containing planar regions. Each data set contains 9 color images and subpixel-accuracy ground-truth data. (Formats: ppm)
- Middlebury Stereo Vision Research Page - Middlebury College
- Modis Airborne simulator, Gallery and data set - High Altitude Imagery from around the world for environmental modeling in support of NASA EOS program (Formats: JPG and HDF)
- NIST Fingerprint and handwriting - datasets - thousands of images (Formats: unknown)
- NIST Fingerprint data - compressed multipart uuencoded tar file
- NLM HyperDoc Visible Human Project - Color, CAT and MRI image samples - over 30 images (Formats: jpeg)
- National Design Repository - Over 55,000 3D CAD and solid models of (mostly) mechanical/machined engineerign designs. (Formats: gif,vrml,wrl,stp,sat)
- Geometric & Intelligent Computing Laboratory
- OSU (MSU) 3D Object Model Database - several sets of 3D object models collected over several years to use in object recognition research (Formats: homebrew, vrml)
- OSU (MSU/WSU) Range Image Database - Hundreds of real and synthetic images (Formats: gif, homebrew)
- OSU/SAMPL Database: Range Images, 3D Models, Stills, Motion Sequences - Over 1000 range images, 3D object models, still images and motion sequences (Formats: gif, ppm, vrml, homebrew)
- Signal Analysis and Machine Perception Laboratory
- Otago Optical Flow Evaluation Sequences - Synthetic and real sequences with machine-readable ground truth optical flow fields, plus tools to generate ground truth for new sequences. (Formats: ppm,tif,homebrew)
- Vision Research Group
- ftp://ftp.limsi.fr/pub/quenot/opflow/testdata/piv/ - Real and synthetic image sequences used for testing a Particle Image Velocimetry application. These images may be used for the test of optical flow and image matching algorithms. (Formats: pgm (raw))
- LIMSI-CNRS/CHM/IMM/vision
- LIMSI-CNRS
- Photometric 3D Surface Texture Database - This is the first 3D texture database which provides both full real surface rotations and registered photometric stereo data (30 textures, 1680 images). (Formats: TIFF)
- SEQUENCES FOR OPTICAL FLOW ANALYSIS (SOFA) - 9 synthetic sequences designed for testing motion analysis applications, including full ground truth of motion and camera parameters. (Formats: gif)
- Computer Vision Group
- Sequences for Flow Based Reconstruction - synthetic sequence for testing structure from motion algorithms (Formats: pgm)
- Stereo Images with Ground Truth Disparity and Occlusion - a small set of synthetic images of a hallway with varying amounts of noise added. Use these images to benchmark your stereo algorithm. (Formats: raw, viff (khoros), or tiff)
- Stuttgart Range Image Database - A collection of synthetic range images taken from high-resolution polygonal models available on the web (Formats: homebrew)
- Department Image Understanding
- The AR Face Database - Contains over 4,000 color images corresponding to 126 people's faces (70 men and 56 women). Frontal views with variations in facial expressions, illumination, and occlusions. (Formats: RAW (RGB 24-bit))
- Purdue Robot Vision Lab
- The MIT-CSAIL Database of Objects and Scenes - Database for testing multiclass object detection and scene recognition algorithms. Over 72,000 images with 2873 annotated frames. More than 50 annotated object classes. (Formats: jpg)
- The RVL SPEC-DB (SPECularity DataBase) - A collection of over 300 real images of 100 objects taken under three different illuminaiton conditions (Diffuse/Ambient/Directed). -- Use these images to test algorithms for detecting and compensating specular highlights in color images. (Formats: TIFF )
- Robot Vision Laboratory
- The Xm2vts database - The XM2VTSDB contains four digital recordings of 295 people taken over a period of four months. This database contains both image and video data of faces.
- Centre for Vision, Speech and Signal Processing
- Traffic Image Sequences and 'Marbled Block' Sequence - thousands of frames of digitized traffic image sequences as well as the 'Marbled Block' sequence (grayscale images) (Formats: GIF)
- IAKS/KOGS
- U Bern Face images - hundreds of images (Formats: Sun rasterfile)
- U Michigan textures (Formats: compressed raw)
- U Oulu wood and knots database - Includes classifications - 1000+ color images (Formats: ppm)
- UCID - an Uncompressed Colour Image Database - a benchmark database for image retrieval with predefined ground truth. (Formats: tiff)
- UMass Vision Image Archive - Large image database with aerial, space, stereo, medical images and more. (Formats: homebrew)
- UNC's 3D image database - many images (Formats: GIF)
- USF Range Image Data with Segmentation Ground Truth - 80 image sets (Formats: Sun rasterimage)
- University of Oulu Physics-based Face Database - contains color images of faces under different illuminants and camera calibration conditions as well as skin spectral reflectance measurements of each person.
- Machine Vision and Media Processing Unit
- University of Oulu Texture Database - Database of 320 surface textures, each captured under three illuminants, six spatial resolutions and nine rotation angles. A set of test suites is also provided so that texture segmentation, classification, and retrieval algorithms can be tested in a standard manner. (Formats: bmp, ras, xv)
- Machine Vision Group
- Usenix face database - Thousands of face images from many different sites (circa 994)
- View Sphere Database - Images of 8 objects seen from many different view points. The view sphere is sampled using a geodesic with 172 images/sphere. Two sets for training and testing are available. (Formats: ppm)
- PRIMA, GRAVIR
- Vision-list Imagery Archive - Many images, many formats
- Wiry Object Recognition Database - Thousands of images of a cart, ladder, stool, bicycle, chairs, and cluttered scenes with ground truth labelings of edges and regions. (Formats: jpg)
- 3D Vision Group
- Yale Face Database - 165 images (15 individuals) with different lighting, expression, and occlusion configurations.
- Yale Face Database B - 5760 single light source images of 10 subjects each seen under 576 viewing conditions (9 poses x 64 illumination conditions). (Formats: PGM)
- Center for Computational Vision and Control
Frameworks
- Caffe
- Torch7
- Theano
- cuda-convnet
- convetjs
- Ccv
- NuPIC
- DeepLearning4J
- Brain
- DeepLearnToolbox
- Deepnet
- Deeppy
- JavaNN
- hebel
- Mocha.jl
- OpenDL
- cuDNN
- MGL
- KUnet.jl
- Nvidia DIGITS - a web app based on Caffe
- Neon - Python based Deep Learning Framework
- Keras - Theano based Deep Learning Library
- Chainer - A flexible framework of neural networks for deep learning
- RNNLM Toolkit
- RNNLIB - A recurrent neural network library
- char-rnn
- MatConvNet: CNNs for MATLAB
- Minerva - a fast and flexible tool for deep learning on multi-GPU
- Brainstorm - Fast, flexible and fun neural networks.
- Tensorflow - Open source software library for numerical computation using data flow graphs
- DMTK - Microsoft Distributed Machine Learning Tookit
- Scikit Flow - Simplified interface for TensorFlow (mimicking Scikit Learn)
- MXnet - Lightweight, Portable, Flexible Distributed/Mobile Deep Learning framework
- Veles - Samsung Distributed machine learning platform
- Marvin - A Minimalist GPU-only N-Dimensional ConvNets Framework
- Apache SINGA - A General Distributed Deep Learning Platform
- DSSTNE - Amazon's library for building Deep Learning models
- SyntaxNet - Google's syntactic parser - A TensorFlow dependency library
Miscellaneous
- Google Plus - Deep Learning Community
- Caffe Webinar
- 100 Best Github Resources in Github for DL
- Word2Vec
- Caffe DockerFile
- TorontoDeepLEarning convnet
- gfx.js
- Torch7 Cheat sheet
- Misc from MIT's 'Advanced Natural Language Processing' course
- Misc from MIT's 'Machine Learning' course
- Misc from MIT's 'Networks for Learning: Regression and Classification' course
- Misc from MIT's 'Neural Coding and Perception of Sound' course
- Implementing a Distributed Deep Learning Network over Spark
- A chess AI that learns to play chess using deep learning.
- Reproducing the results of "Playing Atari with Deep Reinforcement Learning" by DeepMind
- Wiki2Vec. Getting Word2vec vectors for entities and word from Wikipedia Dumps
- The original code from the DeepMind article + tweaks
- Google deepdream - Neural Network art
- An efficient, batched LSTM.
- A recurrent neural network designed to generate classical music.
- Memory Networks Implementations - Facebook
- Face recognition with Google's FaceNet deep neural network.
- Basic digit recognition neural network
- Emotion Recognition API Demo - Microsoft
- Proof of concept for loading Caffe models in TensorFlow
- YOLO: Real-Time Object Detection
- AlphaGo - A replication of DeepMind's 2016 Nature publication, "Mastering the game of Go with deep neural networks and tree search"
发现回答以后评论与关注也较多,现在经过一年学习回头来看确实这个答案不适合扎实的新手入门,有一些误导。特此修正。 我想让答案尽可能短,看起来不吓人。
--------------------------------
我入门CV时清华的朋友给的资料,帮助十分大!十分适合新手入门!
我是本科EE入门的,所以应该没有底子比我差的了。
-------------------------速成的道路---------------
0、Andrew Ng的机器学习部分内容(机器学习介绍,回归问题与梯度下降,过拟合欠拟合)
英文能力足够推荐英文版: Machine Learning
(中文版对应网易公开课 斯坦福大学公开课 :机器学习课程)
(中英链接里的章节貌似不对应,按内容看)
1.UFLDL: http://ufldl.stanford.edu/wiki/index.php/UFLDL_Tutorial
- Neural Networks
- Backpropagation Algorithm
2.CMU Advanced Introduction to Machine Learning PPT: http://www.cs.cmu.edu/~epxing/Class/10715/lectures/DeepArchitectures.pdf
这是一门Machine Learning课程中讲到CNN的部分
3.CAFFE: Caffe | Caffe Tutorial
CAFFE是一个常用的deep learning的软件工具,其页面上有deep learning的tutorial材料,同时想要深入了解具体实现的话可以直接阅读源代码
--------------------------比较全面的道路--------------
一个技术上认识DL(这里说CNN),的顺序是:
线性分类->感知机->梯度下降->神经网络->BP算法->三层全连接网络->CNN
感悟上认识DL的顺序是:
(生物基础)Hubel&Wiesel视通路研究 -->(计算机模拟)神经网络-->神经网络很好骗
-->神经网络一定要深吗?-->神经网络一定要深-->混沌理论&量子力学
Stanford University CS231n: Convolutional Neural Networks for Visual Recognition
开个小玩笑!
如果你想了解理论的东西,可以直接看 UFLDL教程 - Ufldl
如果你是在读硕士或博士的话,看完UFLDL教程后,先看看LeNet5那篇文章热热身,然后建议你直接看看Hinton et al <ImageNet classification with deep convolutional neural networks>和最近港文的王小刚老师和FaceBook的杨铭老师的相关工作!都在LFW数据库上得到了很好的效果!
而实际代码的东西,目前Caffe BVLC/caffe · GitHub和MatConvNet http://www.vlfeat.org/matconvnet/都是比较好的框架!前者是基于C++代码,提供了Matlab和python的接口,而后者是Matlab的代码,在学术界的影响力不如caffe!但两者作为入门都绝对够了!而caffe更好的一点在于,它能够让你在大框架不变的情况下,fine-tunning你自己的数据库,得到对应的model。但效果估计不好,主要原因是理想的模型是需要与数据的分布与规模 相match,否则要么over-fitting,要么under-fitting。
在看完最基本的DL内容后,这两个框架均不难理解~但对于不同情况下的Train model的生成,如上所述,则是个经验活!
首先是数学基础,虽然这块的要求并不需要学的很深入,但基本的了解还是要的,如果能够较为深入的学习,在真正做分析和工程时的帮助也会比较大。如果是在校生,并且有志于深度学习方向,多花点时间在这上面是十分值得的。
1. 线性代数,矩阵和张量的计算
了解标量、矢量、矩阵和张量,对相关的运算(比如加法、乘法、转置等)比较熟悉,知道特征分解和奇异值分解是怎么回事等等。如果有时间,啃点书总没有坏处,比如 Linear Algebra (豆瓣) ,和 矩阵计算 (豆瓣) 。这两个公开课 可汗学院公开课:线性代数 和 麻省理工公开课:线性代数 ,有空看看也没啥坏处
2. 微积分
微积分应该是大学理工科必须的课程吧,求导是微积分里面最基本的概念了吧,在深度学习里也是基础之一,对其了解是必要的。如果有时间,还是啃书,柯朗的两卷本 微积分和数学分析引论(第一卷) (豆瓣) 和 微积分和数学分析引论(第二卷) (豆瓣) 貌似是很经典的,有兴趣的可以啃啃。 麻省理工学院公开课:单变量微积分 和 麻省理工学院公开课:多变量微积分 这两个公开课讲的不错的,偶当年在地铁上看下来的,也是不容易啊。
3. 概率,统计和随机过程
几个基本的分布(如高斯分布,指数分布等)是需要了解的,条件概率之类的也得知道吧,贝叶斯是谁还是得认识一下的,大数定律和中心极限定理能够熟悉熟悉也是有帮助的,如果能够认识下马尔科夫,想来也是有帮助的。手头的书翻了下,貌似有 概率论沉思录 (豆瓣), 还有 随机过程 (豆瓣)。网易公开课这类课程比较少啊,搜索了下,只有 可汗学院公开课:统计学 这个看起来有点意思(没看过,找个时间瞧瞧去)。
第 二块是机器学习的基础知识。深度学习是机器学习的一个分支,由于在图像识别语音识别机器翻译等多个地方的效果卓越而流行起来的。总体上,线性回归是机器学 习里最基本也是最常用的算法,直至2015年的时候,Google,百度等互联网公司在广告及其相关项目中所使用的最多的算法依然是线性回归,简单,可解 释和高效率是它的最大的优点。其他诸如过拟合和泛化,training,validation和testing等机器学习中最基本的概念也同时是深度学习 所必须的。其他诸如贝叶斯网络,svm,nn,k-means,mcmc,sgd,熵,分类和聚类,监督和无监督等算法和概念在大部分机器学习的书籍中都 或多或少涉及到。大部头书籍 Pattern Recognition And Machine Learning (豆瓣)是最经典的书籍(没有)之一,斯坦福的经典教程 UFLDL教程 - Ufldl 涉及到无监督学习和深度学习(与时俱进的比较快), 另外,公开课 加州理工学院公开课:机器学习与数据挖掘 看看也会有所收获的。
1. 数据,training, validation和testing
2. 线性模型,classification和regression
3. 贝叶斯网络,SVM,马尔科夫随机场
4. cluster,k-means
5. 神经网络
第 三块是编程。纸上得来终觉浅,绝知此事要编程。在一个美帝总统奥巴马都学习编程,美帝监狱都开编程客的年代,一个搞深度学习的编程水平太差,也说不过去 吧。同时,深度学习在目前阶段,还是需要很大的计算力来支持的,对于稍微有点规模有点实用的场景,分布式和GPU都是需要涉及到的,编程语言的 话,C/C++肯定会涉及,Python估计也无法避免会遇到,java和lua等其他语言会一些则更好,至于世界上最好的语言PHP不会倒无关紧要。这 本书 深入理解计算机系统 (豆瓣) 有助于从各方面了解计算机,(特别是非计算机专业的)啃完后会受益匪浅。C和C++的书籍多如牛毛, C程序设计语言 (豆瓣) 和 C++ Primer 中文版(第 5 版) (豆瓣) 这两本书是我的偏好(想当年啃下后一本的时候,还是有点成就感的)。如果能够把 Learning Python (豆瓣) 和 SciPy and NumPy (豆瓣) 啃完,用起Python应该是能够得心应手的。至于cuda(进行GPU计算的),官方资料( https://developer.nvidia.com/cuda-zone )十分丰富,有需要就去看看好了。
第四块是深度学习(这个名字有点奇怪就是,不过都这么叫了,熟了就好了)。在不熟之前还生着的时候,深度学习有另外一个名称叫神经网络(不是神经病网络哦),貌似上个世纪后期的时候就火过一阵,奈何先驱约等于先去的意思,那个时候由于计算机的能力问题,没搞出啥好的效果,让位于一堆其他的机器学习算法。直到201×年,突然间,Hinton,Bengio,LeCun等人依靠强大的计算力让多层神经网络能够很好的运行,并且效果好的令人发指,于是乎大家才想起,原来神经病还能这么玩,然后大家就high起来了。wikipedia上dl的条目 Deep learning 编辑的挺不错的,很适合作为入门材料,了解一下基本概念。LeCun,Bengio和Hinton合作的Nature的Review: Deep learning( https://www.cs.toronto.edu/~hinton/absps/NatureDeepReview.pdf)应该是必读的文献之一吧,另外Bengio的Learning Deep Architectures for AI( http://sanghv.com/download/soft/machine%20learning,%20artificial%20intelligence,%20mathematics%20ebooks/ML/learning%20deep%20architectures%20for%20AI%20(2009).pdf ) 和Schmidhuber的Deep Learning in Neural Networks:An Overview( http://arxiv.org/pdf/1404.7828v4.pdf)也是了解这个领域的好文。不想看论文的,可以看看这个 https://www.youtube.com/channel/UC9OeZkIwhzfv-_Cb7fCikLQ (基础+框架介绍)和 这个 https://www.youtube.com/playlist?list=PLE6Wd9FR--EfW8dtjAuPoTuPcqmOV53Fu(牛津大学的课程,国外大学的课程真是与时俱进,不知道国内大学是否有开课?)
接下来是不同领域的应用,印象中,深度学习首先是在图像识别和计算机视觉中火起来的,这篇ImageNet Classification with Deep Convolutional Neural Networks( http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf)是dl在计算机视觉中应用的经典文章之一。自然语言处理方面,当年word2vec( https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf,)刚出来的时候,让一小撮土鳖大吃一惊,原来nlp还能这么玩。而这次alphaGo(Mastering the game of Go with deep neural networks and tree search: http://willamette.edu/~levenick/cs448/goNature.pdf)则让超越了码农群体之外的一大撮人大吃一惊,原来,围棋也有另一种玩法。
了解完了之后,就开始写代码。早些年呢,需要从0开始一把鼻涕一把泪的搬很多砖才能搞出一个能够work的东西。后来,不知道何年何月为了啥目的,各种开源框架纷纷冒出,现在随便花店心思,就能过搞出一个忽悠人的东西出来。这么些个 GitHub - BVLC/caffe: Caffe: a fast open framework for deep learning. GitHub - tensorflow/tensorflow: Computation using data flow graphs for scalable machine learning GitHub - Theano/Theano: Theano is a Python library that allows you to define, optimize, and evaluate mathematical expressions involving multi-dimensional arrays efficiently. It can use GPUs and perform efficient symbolic differentiation. 和 GitHub - torch/torch7: http://torch.ch 以及更多的各种框架,就任君选择了。至于哪个好用,谁用谁知道。号称码神的jeff dean在韩国汉城的演讲中( https://www.youtube.com/watch?v=QSaZGT4-6EY),穿着那件TensorFlow的t恤,看起来还是蛮不错的。其实我蛮想知道的,AlphaGo是不是用tersorflow的?如果不是,为嘛不用?
第五块是领域知识,随便列举,有空的时候整理一下我自己做过的一些内容。
比如alphago,aja huang是业余6段的水平;
比如之前有个同事做色情图像识别,貌似天天看图片看到吐啊;
比如想在金融领域玩玩的,对金融也是得有所了解的
其他内容,貌似只能写写段子的部分了
问题的理解、抽象和建模
执行力
勤奋
上述几个方面要(都)做的好的,算算人数也不会太多。而能够都做的好的,还不一定去干深度学习这事,比如有些人抱着白富美去做人生赢家去了,有些人游山玩水到处自拍显摆去了,剩下的也就寥寥无几了。
看到这里的,数学还不错,编程水平又比较高,人也聪明并且勤奋的,如果还闲着的话,欢迎私信我啊。
写着写着变成一个教程了
慢慢更新
这只能当辅助材料,基础功还是要找正规的教材系统性学习。
我不是专业研究深度学习的,边学边写,发现 bug 请指教。
深度学习源码解读-ch0-talk is cheap - 黑客与画家 - 知乎专栏
深度学习源码解读-ch1-JSON is awesome - 黑客与画家 - 知乎专栏
深度学习源码解读-ch2-Caffe is coming - 黑客与画家 - 知乎专栏
深度学习源码解读-ch3-Caffe is brewing - 黑客与画家 - 知乎专栏
深度学习源码解读-ch4-Caffe 中的设计模式 - 黑客与画家 - 知乎专栏
未完待续
神经网络都不懂, feed forward, backward propagation, loss function,gradient 都推不明白的,就别先入门 deep learning了。
深度学习不是魔术,不是你传个输入,验个输出,再看看改改哪个参数结果更好就行的。如果你的要求只是会用caffe,那你其实也不需要入门。
UFLDL教程 - Ufldl :UFLDL,理论性强,但是比较抽象,适合数学基础扎实的人
Stanford University CS224d: Deep Learning for Natural Language Processing stanford 224d, 文本方面的深度学习
Stanford University CS231n: Convolutional Neural Networks for Visual Recognition stanford 231n, CV方面的深度学习
这两个课程的最大好处是用ipython notebook这个平台来做作业。你需要自己编写最核心的代码,它帮助你实时展示验证你的结果, 你还可以自己定义很多输出方式。而这两个课程都很注重程序的效率,它对factorization的要求之高超乎我的想象。我上完课才发现自己以前写的python都是幼稚园手工。而Andrew Ng 在ML课程里所教的很多东西课程里也有涉及,如何train, validate, test,如何选择参数,如何选择初始化,如何根据图像来判断你的模型参数是否合适等等等。
一开始我认为 PRML 中的神经网络那一章早就过时了,现在看起来还是有必要一读的,涵盖了很多基础的概念。
然后,比起读书,入门的时候更需要去高屋建瓴地了解这个领域大概分为哪些部分,目前的前沿工作都各自沿着哪个方向展开。 可以看一看 Reading List « Deep Learning 这里面的分类以及所对应的经典论文。LeCun, Hinton 以及 Bengio 最近有一篇综述,题目就叫 Deep Learning, 基本上各个方向都提及了一些,值得一看。
如果课题组是偏 CV, 那么CNN 一定是要吃透的,可以说很多工作都是围绕着 CNN 展开, 或是 添加了 不同的 layer, 或是用多任务共享参数来提升预测效果。。等等这一切基本离不看 CNN。 几个关键词: weights shared, filter/kernel, (max) pooling, feature map, 这些词语的意思,都要吃透。
而如果是偏 NLP 的话, 那么 RNN 则是 相比之下比较重要的了,因为 RNN 这种 能够对 同一层 layer 的 unit 与 unit 之间的关系做表达的model 非常适合于上下文的任务中。 然后就是 LSTM 等子问题,也有很多可研究的工作。这方面的话可以参考 Stanford NLP 组的 Socher, Manning等人, 有很多不错的工作。Alex Graves 的 "Supervised Sequence Labelling with Recurrent Neural Networks" 前几章讲述了从 普通的多层感知机 到 RNN 然后再到 LSTM, 值得一读。
最近在看图说话,以及简单一点的给定一个图片找出与之对应的描述句子(句子使给定的),这样的工作正好可以把 CNN 和 RNN 结合起来,即 用 CNN 识图, 用 RNN 做句子的向量表示,这样组合起来又能发好几篇文章= =, 所以说着力点还是很多的。
至于 sparse coding 和 deep/restricted boltzmann machine, 就不太了解了。 也见过将 CNN 和 RBM 结合起来用的, 有同好可以讲一讲吗。。。
P.S. Bengio 的那本 《Deep Learning》 DEEP LEARNING 啥时候才能正式出版。。。。 休刊了吗?
现在深度学习的门槛真心是越来越低了,低到已经几乎像svm一样人人都说会了。。
关于入门,如果要迅速了解一般深度学习模型的前向反向计算过程的话,个人依然还是很推荐原答案中提到的tutorial和matlab代码包的,很基础很好懂。
不过在实战上,这个matlab的包确实作用不大。。不过好在相关代码已经漫天飞了,而且一般都配有很详细的教程。CNN的话caffe和mxnet都已经非常好上手了,很适合单机单卡初学者,其他的像LSTM、RNN之类的在github上也都可以找到很经典的代码包可以分享了。不妨先下个跑跑demo,方便入门~~
总之时代在变,deep泛滥的时代,复现别人的工作也变得容易多了,所以上手的顾虑可以放低一些,不过依然要说,个人认为这毕竟还是一个需要烧机器烧人力烧经验的行当,所以如果要做出好工作,确实还是需要一些个人和实验室层面的积累的。
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
原答案:
我觉得首先得看题主是几年级,以及是否考虑读博,因为深度学习是一个在算法上超级简单但是在实现和融合上比较麻烦的东西,上手确实需要时间,所以如果时间紧张而且实验室没有基础的话,不太建议跳这个大坑。。。
如果已经下定决心要跳了,而且要比较速成的方式,个人建议先看UFLDL的tutorial和BP算法,结合DeepLearnToolbox,对理解算法很有帮助。
最后,放下书,下载code,换上自己的数据库跑它几次,这个东西真心是谁用谁知道。。。。
2:CNN for visual recognition.李飞飞
3:deep learning for nlp.
按以上三步,英文基础好的话,最多四个月就能有不错的底子了。
4:看论文+做真实项目。这是最后一步,需要有写代码和看英文的能力,还要有对业务的理解能力。
UFLDL Tutorial
这个教程是Andrew Ng他们做的。教程讲解了深度学习的基本概念,讲解非常清晰明了,你关心的神经网络的问题,教程里也有讲解。这个教程还有中文翻译,你可以在该页面下方将教程设置为中文。
这个教程一个牛逼的地方在于,他会带着你一步一步地实现一个深度学习算法,并在一个手写数字的数据集上测试。
但是深度学习里一些其他重要的方法,如Restricted Boltzmann Machines,并没有涉及到。在你学习完这个教程后你可以继续找资料学习。教程中也给了一个Recommended Readings.
当然这只是一个入门,告诉你深度学习大概是个怎么回事。如果你要继续学习,就要继续读相应的文献和相关的最新书籍。
- 从神经网络的基础开始,既有直观认识,也有数学细节。
- 攻略内容详细,可操作性强,虽说只用了两个隐层而已,但是需要理解的重要的内容都涵盖了,(计算梯度(gradient),反向传导算法(back-propagation),微调(fine-tuning)),而且提供了代码框架,通过学习可以自行完成核心代码,用提供的测试结果进行验证,作为攻略真的够完整。
- 还是有一些数学的推导的,特别是算梯度那块。
- 编程用的是matlab,有一定基础的话而且又能理解数学推导部分
- 用的模型是stacked auto-encoder,还有很多其他的深度学习模型,现在最火的是卷积神经网络(CNN),自从ImageNet Classification with Deep Convolutional Neural Networks 2012年在NIPS发表以来,各种改进版本层出不穷,刷新各种CV的数据集指标,也是该领域当前最热门研究内容,本攻略只在最后一章有所涉及。
如果理解UFLDL感觉比较困难,以下是建议:
- 在弄清楚基本的原理之前,我不觉得阅读类似caffe实现的代码会很有帮助,只会更加困惑
- 深度学习并不是一个独立的研究领域,应该说是众多机器学习问题中的一个,而且是从神经网络这个模型衍生出来的,也许你根据自己的背景、需求和兴趣,在对机器学习各个方面有所了解之后,觉得需要用深度学习做点工作,再继续会比较好
- 补充一些更关于数学基础的内容: 数据挖掘、人工智能、模式识别等学科的公共数学基础有哪些?(比如贝叶斯网络) - 者也的回答