Python新书上市,强烈推荐!
《Python网络数据爬取及分析从入门到精通(爬取篇)》导读
内容简介
本书主要包括上下两册:
《Python网络数据爬取及分析从入门到精通(爬取篇)》
《Python网络数据爬取及分析从入门到精通(分析篇)》
数据爬取篇: 详细讲解了正则表达式、BeautifulSoup、Selenium、Scrapy、数据库存储相关的爬虫知识,并通过实例让读者真正学会如何分析网站,抓取自己所需的数据。
数据分析篇: 详细讲解了Python数据分析常用库、可视化分析、回归分析、聚类分析、分类分析、关联规则挖掘、文本预处理、词云分析及主题模型、复杂网络和基于数据库的分析。
上册突出爬取,下册侧重分析,强烈推荐读者两本书结合起来学习。
PS:最近参加CSDN2018年博客评选,希望您能投出宝贵的一票。我是59号,Eastmount,杨秀璋。投票地址:https://bss.csdn.net/m/topic/blog_star2018/index
五年来写了314篇博客,12个专栏,是真的热爱分享,热爱CSDN这个平台,也想帮助更多的人,专栏包括Python、数据挖掘、网络爬虫、图像处理、C#、Android等。现在也当了两年老师,更是觉得有义务教好每一个学生,让贵州学子好好写点代码,学点技术,"师者,传到授业解惑也",提前祝大家新年快乐。2019我们携手共进,为爱而生。
购买地址
新书将于6月18日前与大家见面,请读者耐心等待,也推荐大家购买学习。
大家可以在购物网站搜索 "Python网络数据爬取及分析" 关键字进行购买,如下图所示:
购买地址请点击下面的链接:
京东购买地址
淘宝购买地址
当当购买地址
天猫购买地址
前言花絮
合上电脑,闭上双眼,这已是一年之后,《Python网络数据爬取及分析从入门到精通》终于完稿。起初很多出版社找我写书,我是拒绝的,一方面实在太忙,这一年自己被借调到省里学习,又有学校的课程和项目,身兼双职,无暇顾及;另一方面始终觉得自己只懂个皮毛,只是个初出茅庐的“青椒”,还有太多的知识需要去学习和消化,写书,哪有资格。
"相识满天下,知心能几人",是北航出版社的编辑董哥说服了我,让我决定写一本关于Python数据爬取及分析实例的书籍。结合着五年来在CSDN写过的280多篇博客、敲打的无数Python爬虫代码以及网络数据分析实例,我用心撰写着这部著作,同时它也是我和她爱情的见证,开始下一步Python人工智能学习的阶段性总结。
本书主要分为上下两册——“数据爬取篇”和“数据分析篇”,强烈推荐读者两本书结合起来使用。
在上册“数据爬取篇”中,作者首先引入了网络爬虫概念,然后讲解了Python基础知识,最后结合正则表达式、BeautifulSoup、Selenium、Scrapy、数据库等技术,详细分析了在线百科、个人博客、豆瓣电影、招聘信息、图集网站、新浪微博等爬虫案例,让读者真正掌握网络爬虫的分析方法,从而爬取所需数据集,并为后续数据分析提供保障。当您读完上册书籍之后,作者推荐您购买下册“数据分析篇”,它将更好地为您的数据挖掘研究和数据分析项目开发提供帮助。
多少次深夜无眠,年青的秀璋加班回家后又打开了电脑,开始撰写他心爱的书籍。那一刻,所有的烦恼与疲惫都早已忘却,留下的只是幸福和享受,仿佛整个世界都静止了,所有人都站在了秀璋的身旁,静静地看着他,塔塔地敲打着键盘,有时他又停了下来,右手撑着脸颊片刻思考,有时他又抄起钢笔,刷刷画着什么。
就这样,数不清经历了多少个午间休息、多少夜凌晨灯火、多少次来回上班的路途,我构思着、敲打着,终于撰写完成了这本书籍。书是写完了,但这期间的艰辛、酸甜又有多少人知道?无人可以述衷肠,但那又何妨?留一段剪影,于心中回放。不论您读这本书的时候,是否有所收获,秀璋都很用心地在撰写,不为别的,只为给自己一个交代,给女神一个惊喜,让初学Python爬虫和数据分析的新手品尝下代码的美味,感受下IT技术的变革,足矣。更何况这本书确实普及了很多有用的实例,从方法到代码,从基础讲解到深入剖析,采用图文结合、实战为主的方式讲解,也为后续的人工智能、数据科学、大数据等领域研究打下基础。整本书上下两册就像秀璋的两个孩子,“数据爬取篇”是他的儿子,“数据分析篇”是他的女儿,让他爱不释手,哺育着他们一天天成长。
新书亮点
1.新颖系统。由于市场上缺少一本以实例为驱动,全面详细地介绍Python网络爬虫及数据分析的书籍,本书很好的填补了这一空白,它通过Python语言来教读者编写网络爬虫并教大家针对不同的数据集做算法分析。
2.实例覆盖。本书涵盖了Python基础知识、数据爬取、数据分析、数据预处理、数据可视化、数据存储、算法评估等多方面知识,每一部分知识都从安装过程、导入扩展包到算法原理、基础语法,再结合实例详细讲解。
3.通俗易懂。本书结合作者多年来的Python开发经验以及在CSDN分享的三个Python系列文章,在互联网上享誉良好。
- Python基础知识系列:Pythonj基础知识学习与提升
- Python网络爬虫系列:Python爬虫之Selenium+Phantomjs+CasperJS
- Python数据分析系列:知识图谱、web数据挖掘及NLP
4.Python优势。由于Python具有语法清晰、代码友好、易读易学等特点,同时拥有强大的第三方库支持,包括网络爬取、数据分析、绘图可视化、机器学习等;从来没有一种编程语言可以像Python这样同时扎根在这么多领域,所以本书选择了Python作为数据爬取和数据分析的编程语言。
5.读者建议。本书适合于计算机科学、软件工程、信息技术、统计数学、数据科学、数据挖掘、大数据、人工智能等专业的学生学习,也适合对网络数据爬取、数据分析、文本挖掘、统计分析等领域感兴趣的读者阅读,同时推荐教师选择该书作为数据挖掘、数据分析、数据爬取、机器学习、大数据等技术相关课程的教材或实验指南。
"爬取篇" 章节详解
"爬取篇"主要讲解Python网络数据爬取知识,如下图所示,表示爬取的基本流程及核心内容。
具体章节如下:
第1章 网络数据爬取概述
1.1 网络数据爬虫 1.2 相关技术 1.3 本章小结
第2章 Python知识初学
2.1 Python简介 2.2 基础语法 2.3 数据类型 2.4 条件语句 2.5 循环语句
2.6 函数 2.7 字符串操作 2.8 文件操作 2.9 面向对象 2.10 本章小结
第3章 正则表达式爬虫之牛刀小试
3.1 正则表达式 3.2 Python网络数据爬取的常用模块 3.3 正则表达式抓取网络数据的常见方法
3.4 个人博客爬取实例 3.5 本章小结
第4章 BeautifulSoup技术
4.1 安装BeautifulSoup 4.2 快速开始BeautifulSoup解析 4.3 深入了解BeautifulSoup爬虫
4.4 BeautifulSoup简单爬取个人博客网站 4.5 本章小结
第5章 BeautifulSoup爬取电影信息
5.1 分析网页DOM树结构 5.2 爬取豆瓣电影信息 5.3 链接跳转分析及详情页面爬取 5.4 本章小结
第6章 Python数据库知识
6.1 MySQL数据库 6.2 Python操作MySQL数据库 6.3 Python操作Sqlite3数据库 6.4 本章小结
第7章 基于数据库存储的BeautifulSoup招聘爬虫
7.1 知识图谱和智联招聘 7.2 BeautifulSoup爬取招聘信息 7.3 Navicat for MySQL工具操作数据库
7.4 MySQL数据库存储招聘信息 7.5 本章小结
第8章 Selenium技术
8.1 初识Selenium 8.2 快速开始Selenium解析 8.3 定位元素
8.4 常用方法和属性 8.5 键盘和鼠标自动化操作 8.6 导航控制 8.7 本章小结
第9章 Selenium技术爬取在线百科知识
9.1 三大在线百科 9.2 Selenium爬取维基百科 9.3 Selenium爬取百度百科
9.4 Selenium爬取互动百科 9.5 本章小结
第10章 基于数据库存储的Selenium博客爬虫
10.1 博客网站 10.2 Selenium爬取博客信息 10.3 MySQL数据库存储博客信息 10.4 本章小结
第11章 基于登录分析的Selenium微博爬虫
11.1 登录验证 11.2 初识微博爬虫 11.3 爬取微博热门信息 11.4 本章小结
第12章 基于图片抓取的Selenium爬虫
12.1 图片爬虫框架 12.2 图片网站分析 12.3 代码实现 12.4 本章小结
第13章 Scrapy技术爬取网络数据
13.1 安装Scrapy 13.2 快速了解Scrapy 13.3 Scrapy爬取贵州农产品数据集 13.4 本章小结
原书试读
封面:感谢董哥他们的精心设计与付出。
爬虫篇:
分析篇:
再"序"前缘
下面让我带领大家看看别人眼中的《Python网络数据爬取及分析从入门到精通》。
杨老师是我认识的人里,最能忠于自己内心的人。在青春年少时他便能抱定自己的理想,多年来一直不忘初心、心无旁骛地朝着目标踽踽前行,既仰望星空,又脚踏实地,直到达成所愿。
|
杨老师是一个善良、纯粹而又执著的人,日常交往中人们很容易在他身上建立起信任感,他对得失的毫不计较,对教育事业的虔诚,对他人的真挚友善,对知识的尊重与渴求,无不深深打动着身边的人。程序员有很多种,他可能并不是技术最厉害的,但他选择了一条更为艰难的路,学习积累,潜心创作,教书育人,用一篇篇文章,一个个精彩的案例去帮助更多人。 |
当我被秀璋邀请为这本书写序时,我首先感到的是惊讶和荣幸。这本书的作者是我最好的朋友之一,在大学期间,每个人都知道他当老师的梦想,之后他也确实回到了家乡贵州,做着他喜欢的事情。我希望他能在教育领域保持着那份激情和初心,即使这是一个漫长而艰难的过程,但我相信他会用他的热情和爱意克服一切困难,教书育人。
但我们从哪里开始学习这些新知识呢?我想你可能会在这里找到答案。在本书中,秀璋介绍了一种可用于数据挖掘等应用的基本技能——网络爬虫技术。一个网络爬虫通常是从互联网上提取有用的信息,它可以用来抓取结构化/非结构化文本、图片或各类数据。借助这些数据,我们可以构建自己的应用,例如Google知识图谱、舆情分析系统、智能家具应用等。 对于初学者来说,学习这本书中内容并不难,即使是那些不了解Python的读者,也可以从这本书中快速入门。它就是一步步的教程,包括基本的Python语法、BeautifulSoup技术、Selenium技术、Scrapy框架等等。书中许多生动而有趣的案例让你永远不会觉得无聊,还有详细的图形指南和代码注释。本书真的是学习Python数据爬取和数据分析的不二选择,同时推荐你上下两册(上册“爬取篇”,下册“分析篇”)一起购买,结合起来学习。 如果你真的是Python、网络爬虫、数据分析或大数据的忠实粉丝,请不要犹豫,从本书开始吧! —— perry · 序三
|
作为与秀璋同窗同寝的10年老友,有幸见证秀璋与娜娜相识相知相爱。此书可以说是他们爱的结晶。秀璋是深受朋友信任的好兄弟,亦是深受学生爱戴的好老师,似乎永远有用不完的热情,这种热情,带给我们这个社会一丝丝的温暖,在人与人之间传递着。当初在博客上不断写文章,并耐心解答网友们的各种问题,还帮助许多网友学习编程,指导作业甚至毕业论文,所以,当教师这颗种子早已种下。毕业后的秀璋,拿着同学们羡慕的Offer,却毅然决然踏上返乡的路,这一走,走进了大山里的贵州,成了一名受人尊敬的人民教师。生活平淡而辛苦,而乐观的秀璋在此时收获了爱情,时也命也。 |
后记与致谢
"贵州纵美路迢迢,未付劳心此一遭。搜得破书三四本,也堪将去教尔曹。"这首诗是我选择离开北京,回到家乡贵州任教那天写的。每当看到那一张张笑脸、一双双求知的双眼,我都觉得回家很值,也觉得有义务教好身边的每一个学生;每当帮好友或陌生博友解决一个程序问题,得到了他们的一个祝福、一句感谢,总感觉有一股暖流从脚底板窜到天灵盖,让我浮动嘴角,温馨一笑。而当我写完这本书籍之时,又能帮助多少人?它究竟能促进数据分析学科的发展吗?或是为贵州家乡大数据发展做出点贡献?我不知道,但就觉得挺好。希望书能帮助更多的初学者或Python爱好者,如果这本书对您有所帮助,也恳请您推广给周围的朋友,谢谢。
有人说秀璋选择回家教书是情怀,有人觉得是逃避北上广,也有人认为是作秀或是初心。但这些都不重要,重要的是经历,是争朝夕,人是为自己而活,而不关乎其他人的看法。我们赤条条的来,赤条条的去,片片经历都将化为点点诗意,享受其中,何乐而不为呢?但同样,我们需要学会感恩,能完成这本书少不了很多人的帮助。
感谢北航出版社的董伯乐的相知与相识,没有董哥这样的知心人,这本书就不会面世;感谢北航孙老师默默的校稿,已经记不得修订了多少版,但每一版、每一段都透露出她的认真与严谨,也是她的心血;感谢身边朋友同学、老师和同事的帮助和支持,尤其是替我作序的几个知己;感谢娜女神对我的赏识与关心,出书之时就是我求婚之时,书里的每一段文字、每一行代码都藏着对她的思恋,对她的爱意,否则又有什么力量能支撑着我把书写完呢?感谢亲人、我的学生以及很多素未谋面的网友,谢谢您们的建议与支持;最后感谢一下自己,书写完的那天,不知道眼角怎么就浸湿了,真的好想大哭一场,但突然又笑了,这或许就是付出的滋味,一年的收成吧!
未忘初心,岁月静好。
由于本书是结合读者Python实际抓取网络数据和分析数据的研究,以及多年撰写博客经历而编写的,作者才疏学浅,书籍中会存在很多不足或讲得不够透彻的地方,还请广大的读者原谅,同时如果发现书籍中的错误,还请联系作者或出版社,可以发邮件或打电话等形式联系,再次感激所有人。
作者博客:https://blog.csdn.net/Eastmount
作者邮箱:1455136241@qq.com
最后以作者离开北京选择回贵州财经大学信息学院任教的一首诗结尾吧!
贵州纵美路迢迢,未付劳心此一遭。
收得破书三四本,也堪将去教尔曹。
但行好事,莫问前程。
待随满天桃李,再追学友趣事。
作者书已出版,开始默默记录勘误,书中不足或错误之处,也请广大读者海涵,作者不会断分享知识、补充能量、教书育人。同时,也开始征集全国每个省一个祝福视频,最终制作求婚的视频,称之为“点亮中国”,望她喜欢。现在还差河北、天津、山西、新疆、宁夏好友的视频,还请大家帮忙,再次感谢!
(By:Eastmount 2018-06-15 上午9点 http://blog.csdn.net/eastmount/ )