爬取凤凰网新闻

爬取凤凰网新闻

news/2024/11/23 4:07:29/

这份爬取主要借助爬虫常用的三个库: requests BeautifulSoup 和 re,requests主要是请求网页
BeautifulSoup是标准的解析网页信息库，re是python自带的实现正则表达式库。

import requests
from bs4 import BeautifulSoup
from requests.exceptions import RequestException
import re#设置请求头
url = 'https://news.ifeng.com/c/7u3cafzm3Ki'
headers = {'Accept': '*/*','Accept - Encoding':'gzip, deflate, br','Accept-Language':'zh-CN,zh;q=0.9','Connection':'keep-alive','Host':'news.ifeng.com','User-Agent':'User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 UBrowser/6.2.3964.2 Safari/537.36'}
#导入爬取对象
def pageget(url):try:responds = requests.get(url,headers = headers)if responds.status_code == 200:#检查是否导入成功return responds.textreturn Noneexcept RequetsException:return Nonepassage = pageget(url)
###利用BeautiSoup规则调取文章
soup = BeautifulSoup(passage)
##调取文章标题
souptext = soup.select('h1[class="topic-3bY8Hw-9"]')
#将列表信息转字符型
souptext2 = str(souptext[0])
#利用re.sub规则替换 <>为空白
souptext3 = re.sub('<h1 class="topic-3bY8Hw-9">','',souptext2)
title = str(re.sub('</h1>','',souptext3))
##调取文章主体内容
zhuti = str(soup.select('div[class="text-3zQ3cZD4"]')[0])
#利用re.sub 规则替换 <div> 为空 ；替换 <p>为‘  ’ ；替换 </p>为 换行 /n 
zhuti2 = re.sub('\<\/.*?\>','\n',zhuti)
zhuti3 = re.sub('\<.*?\>','  ',zhuti2)

http://www.ppmy.cn/news/515221.html

相关文章

张家界、凤凰古城~~~

张家界、凤凰古城~~~

导游说：没来张家界，想死人；来了张家界，累死人；再来张家界，不是人。凤凰古城：沱江两岸景色、吊脚楼、虹桥、古城墙、北门老码头、万名塔。个人感受：据同行的说有点类似阳朔的西街&a…

阅读更多...

凤凰于飞

凤凰于飞

旧梦依稀，往事迷离，春花秋月里如雾里看花，水中望月，飘来又浮去君来有声，君去无语，翻云覆雨里虽两情相惜，两心相怡，得来复失去有诗待和，有歌待应，有心待相系望…

阅读更多...

凤凰花开的路口

凤凰花开的路口

想起某个好久不见老朋友记忆跟着感觉慢慢变鲜活染红的山坡道别的路口青春带走了什么留下了什么剩一片感动在心窝时光的河入海流终于我们分头走没有哪个港口是永远的停留脑海之中有一个凤凰花开的路口有我最珍惜的朋友也许值得纪念的事情不多至少还有这…

阅读更多...

周志明：《凤凰架构：构建可靠的大型分布式系统》

周志明：《凤凰架构：构建可靠的大型分布式系统》

架构模式的每一次演进都是凤凰涅槃系统架构的每一次迭代都是浴火重生构成系统的每一个部件都是一只不死鸟构成大规模系统的每一个部件都可以是不可靠的，会出错，会老朽，甚至是消亡，如何让不可靠部件构成的系统持续保持可靠性&am…

阅读更多...

凤凰网的抓取

凤凰网的抓取

import requests import re,json,pymysql,time #获取页码ID article_id_list[ “http://shankapi.ifeng.com/shanklist//getColumnInfo//default/6429514672495399578/1532918315000/20/5-35059-/getColumnInfoCallback?callbackgetColumnInfoCallback&154536371661415&qu…

阅读更多...

凤凰古城

凤凰古城

慵懒的清晨在凤凰古城醒来(图) 凤凰古城这座曾被新西兰作家路易艾黎称作中国最美丽的小城之一的“凤凰古城”建于清康熙时，这颗“湘西明珠”是名副其实的“小”，小到城内仅有一条像样的东西大街，可它却是一条绿色长廊。凤凰古城分为新旧两…

阅读更多...

凤凰涅槃

凤凰涅槃

涅槃，涅槃， 太阳般灿烂，黑色的凤凰飞入烈火， 一切腐朽烧干。涅槃，涅槃， 大海般坦然，红色的凤凰浴火重生， 一切希望复燃。涅槃，涅槃， …

阅读更多...

iPhone网易新闻和凤凰新闻客户端

iPhone网易新闻和凤凰新闻客户端

网易版本 3.2.3 凤凰版本 3.3.2 经常用网易凤凰客户端上网，因此比较熟悉这两个客户端，现进行简要分析如下从界面风格、内容，可操作性三个方面界面风格： 相同点： 两个客户端都是由上下导航条、上导航条下的滚动图片、…

阅读更多...

最新文章