python爬虫实战:获取电子邮件和联系人信息

news/2024/12/22 1:23:46/

引言

        在数字时代,电子邮件和联系人信息成为了许多企业和个人重要的资源,在本文中,我们将探讨如何使用Python爬虫从网页中提取电子邮件和联系人信息,并附上示例代码。

目录

引言

二、准备工作

你可以使用以下命令来安装这些库:

三、编写爬虫代码

四、注意事项

总结



二、准备工作

  •         在开始编写爬虫之前,我们需要确保已经安装了Python环境,并安装了必要的库,如requests(用于发送HTTP请求)和beautifulsoup4(用于解析HTML内容)
你可以使用以下命令来安装这些库:
pip install requests beautifulsoup4

三、编写爬虫代码

  • 下面是一个简单的Python爬虫示例,用于从网页中提取电子邮件和联系人信息:
import requests  
from bs4 import BeautifulSoup  
import re  def extract_emails_and_contacts(url):  # 发送HTTP请求,获取网页内容  response = requests.get(url)  response.raise_for_status()  html_content = response.text  # 使用BeautifulSoup解析HTML内容  soup = BeautifulSoup(html_content, 'html.parser')  # 提取电子邮件信息  emails = soup.find_all(text=lambda text: re.search(r'[\w\.-]+@[\w\.-]+\.\w+', text))  emails = [email.strip() for email in emails if email.strip()]  # 提取联系人信息(假设联系人信息包含在<p>标签中)  contacts = soup.find_all('p')  contacts = [contact.get_text().strip() for contact in contacts if 'Contact' in contact.get_text()]  return emails, contacts  # 使用示例  
url = 'https://example.com'  # 替换为你要爬取的网页URL  
emails, contacts = extract_emails_and_contacts(url)  print("提取到的电子邮件:")  
for email in emails:  print(email)  print("\n提取到的联系人信息:")  
for contact in contacts:  print(contact)

四、注意事项

  • 合法性:在进行爬虫操作时,务必遵守网站的robots.txt文件和相关法律法规。确保你的爬虫行为符合网站的使用条款,并尊重用户的隐私和数据保护。
  • 道德性:不要滥用爬虫技术,避免对目标网站造成过大的负担。尊重网站所有者的权益,合理使用爬虫获取的数据。
  • 正则表达式在提取电子邮件和联系人信息时,我们使用了正则表达式来匹配特定的字符串模式。你可以根据实际需求调整正则表达式,以提高提取的准确性和效率。

总结

        通过本文的示例代码,我们展示了如何使用Python爬虫从网页中提取电子邮件和联系人信息。然而,爬虫技术并非万能的,其效果取决于目标网页的结构和内容。


http://www.ppmy.cn/news/1364177.html

相关文章

批量获取图片(上)

1.文件的路径 在Windows系统的路径中&#xff0c;我们使用反斜线 ( \ ) 分隔各个文件夹和文件名。 而在macOS系统中&#xff0c;文件夹和文件名使用正斜线 ( / ) 进行分隔。 2.打开文件 在Python语言中&#xff0c;open()函数表示要打开一个文件&#xff0c;对文件进行处理的…

【pytorch】常用代码

文章目录 条件与概率torch.tensor()torch.rand()torch.randn()torch.randint()torch.multinominal() 逻辑运算torch.argmax()torch.max()torch.sum()torch.tanh()torch.pow() 功能性操作 torch.nn.functionalF.normalize()F.elu()F.relu()F.softmax() 张量计算torch.zeros()tor…

移动端rem适配

如果需要使用 rem 单位&#xff0c;推荐使用以下两个工具&#xff1a; postcss-pxtorem 是一款 postcss 插件&#xff0c;用于将单位转化为 rem lib-flexible 用于设置 rem 基准值 下面我们分别将这两个工具配置到项目中完成 REM 适配。 一、使用 lib-flexible 动态设置 RE…

YOLOv9尝鲜测试五分钟极简配置

pip安装python包&#xff1a; pip install yolov9pip在https://github.com/WongKinYiu/yolov9/tree/main中下载好权重文件yolov9-c.pt。 运行下面代码&#xff1a; import yolov9model yolov9.load("yolov9-c.pt", device"cpu") # load pretrained or c…

Linux 学习笔记(4)

四、 文件权限 1 、文件类型 Linux 广泛的被很多用户所接受&#xff0c;它强大的功能受到很多人喜欢&#xff0c; Linux 文件一般是用一些相关的应 用程序创建&#xff0c;比如图像工具、文档工具、归档工具 ... .... 或 cp 工具等。 Linux 文件的删除方式是用 rm 命…

【Android】坐标系

Android 系统中有两种坐标系&#xff0c;分别为 Android 坐标系和 View 坐标系。了解这两种坐标系能够帮助我们实现 View 的各种操作&#xff0c;比如我们要实现 View 的滑动&#xff0c;你连这个 View 的位置都不知道&#xff0c;那如何去操作呢&#xff1f; 一、Android 坐标…

LeetCode第七题: 整数反转

题目描述 给你一个 32 位的有符号整数 x​ &#xff0c;返回将 x​ 中的数字部分反转后的结果。 如果反转后整数超过 32 位的有符号整数的范围 [−2^31, 2^31 − 1]​ &#xff0c;就返回 0。 假设环境不允许存储 64 位整数&#xff08;有符号或无符号&#xff09;。 示例 …

自动驾驶---行业发展及就业环境杂谈

进入21世纪以来&#xff0c;自动驾驶行业有着飞速的发展&#xff0c;自动驾驶技术&#xff08;L2---L3&#xff09;也逐渐落地量产到寻常百姓家。虽然最早期量产FSD的特斯拉有着深厚的技术积累&#xff0c;但是进入2010年以后&#xff0c;国内的公司也逐渐发展起来自己的自动驾…