爬取凤凰网新闻

news/2024/11/23 4:07:29/

这份爬取主要借助爬虫常用的三个库: requests BeautifulSoup 和 re,requests主要是请求网页
BeautifulSoup是标准的解析网页信息库,re是python自带的实现正则表达式库。

import requests
from bs4 import BeautifulSoup
from requests.exceptions import RequestException
import re#设置请求头
url = 'https://news.ifeng.com/c/7u3cafzm3Ki'
headers = {'Accept': '*/*','Accept - Encoding':'gzip, deflate, br','Accept-Language':'zh-CN,zh;q=0.9','Connection':'keep-alive','Host':'news.ifeng.com','User-Agent':'User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 UBrowser/6.2.3964.2 Safari/537.36'}
#导入爬取对象
def pageget(url):try:responds = requests.get(url,headers = headers)if responds.status_code == 200:#检查是否导入成功return responds.textreturn Noneexcept RequetsException:return Nonepassage = pageget(url)
###利用BeautiSoup规则调取文章
soup = BeautifulSoup(passage)
##调取文章标题
souptext = soup.select('h1[class="topic-3bY8Hw-9"]')
#将列表信息转字符型
souptext2 = str(souptext[0])
#利用re.sub规则替换 <>为空白
souptext3 = re.sub('<h1 class="topic-3bY8Hw-9">','',souptext2)
title = str(re.sub('</h1>','',souptext3))
##调取文章主体内容
zhuti = str(soup.select('div[class="text-3zQ3cZD4"]')[0])
#利用re.sub 规则替换 <div> 为空 ;替换 <p>为‘  ’ ;替换 </p>为 换行 /n 
zhuti2 = re.sub('\<\/.*?\>','\n',zhuti)
zhuti3 = re.sub('\<.*?\>','  ',zhuti2)

http://www.ppmy.cn/news/515221.html

相关文章

张家界、凤凰古城~~~

导游说&#xff1a;没来张家界&#xff0c;想死人&#xff1b;来了张家界&#xff0c;累死人&#xff1b;再来张家界&#xff0c;不是人。 凤凰古城&#xff1a;沱江两岸景色、吊脚楼、虹桥、古城墙、北门老码头、万名塔。 个人感受&#xff1a;据同行的说有点类似阳朔的西街&a…

凤凰于飞

旧梦依稀&#xff0c;往事迷离&#xff0c;春花秋月里如雾里看花&#xff0c;水中望月&#xff0c;飘来又浮去君来有声&#xff0c;君去无语&#xff0c;翻云覆雨里虽两情相惜&#xff0c;两心相怡&#xff0c;得来复失去有诗待和&#xff0c;有歌待应&#xff0c;有心待相系望…

凤凰花开的路口

想起某个好久不见老朋友 记忆跟着感觉慢慢变鲜活 染红的山坡 道别的路口 青春带走了什么 留下了什么 剩一片感动在心窝 时光的河入海流 终于我们分头走 没有哪个港口是永远的停留 脑海之中有一个凤凰花开的路口 有我最珍惜的朋友 也许值得纪念的事情不多 至少还有这…

周志明:《凤凰架构:构建可靠的大型分布式系统》

架构模式的每一次演进都是凤凰涅槃 系统架构的每一次迭代都是浴火重生 构成系统的每一个部件都是一只不死鸟 构成大规模系统的每一个部件都可以是不可靠的&#xff0c;会出错&#xff0c;会老朽&#xff0c;甚至是消亡&#xff0c;如何让不可靠部件构成的系统持续保持可靠性&am…

凤凰网的抓取

import requests import re,json,pymysql,time #获取页码ID article_id_list[ “http://shankapi.ifeng.com/shanklist//getColumnInfo//default/6429514672495399578/1532918315000/20/5-35059-/getColumnInfoCallback?callbackgetColumnInfoCallback&154536371661415&qu…

凤凰古城

慵懒的清晨 在凤凰古城醒来(图) 凤凰古城 这座曾被新西兰作家路易艾黎称作中国最美丽的小城之一的“凤凰古城”建于清康熙时&#xff0c;这颗“湘西明珠”是名副其实的“小”&#xff0c;小到城内仅有一条像样的东西大街&#xff0c;可它却是一条绿色长廊。 凤凰古城分为新旧两…

凤凰涅槃

涅槃&#xff0c;涅槃&#xff0c; 太阳般灿烂&#xff0c;黑色的凤凰飞入烈火&#xff0c; 一切腐朽烧干。 涅槃&#xff0c;涅槃&#xff0c; 大海般坦然&#xff0c;红色的凤凰浴火重生&#xff0c; 一切希望复燃。 涅槃&#xff0c;涅槃&#xff0c; …

iPhone网易新闻和凤凰新闻客户端

网易版本 3.2.3 凤凰版本 3.3.2 经常用网易凤凰客户端上网&#xff0c;因此比较熟悉这两个客户端&#xff0c;现进行简要分析如下从界面风格、内容&#xff0c;可操作性三个方面 界面风格&#xff1a; 相同点&#xff1a; 两个客户端都是由上下导航条、上导航条下的滚动图片、…