【python】python指南(三):使用正则表达式re提取文本中的http链接

devtools/2024/12/23 6:19:21/
aidu_pl">

pythonpythonrehttp_0">【pythonpython指南(三):使用正则表达式re提取文本中的http链接

在这里插入图片描述

一、引言

对于算法工程师来说,语言从来都不是关键,关键是快速学习以及解决问题的能力。大学的时候参加ACM/ICPC一直使用的是C语言,实习的时候做一个算法策略后台用的是php,毕业后做策略算法开发,因为要用spark,所以写了scala,后来用基于storm开发实时策略,用的java。至于python,从日常用hive做数据策略用python写udf,到基于tensorflow深度学习框架写python版的模型网络,再到现在实用pytorch做大模型。眼看着在语言纷争中,python的应用越来越广,开一个单独的专栏用于记录python中常用到的技巧,算是做笔记,没事翻出来看看。

本文重点介绍如何使用python正则表达式re提取一段内容中的链接。

二、参数解析器(ArgumentParser)

2.1 概述
我们日常处理的文本中,有很多内容和链接混合在一起的情况,有时需要我们提取链接,获取链接内的内容,有时希望把链接去掉,今天看一段分离内容和链接的代码。
2.2 代码示例

代码语言:javascript

复制

import redef extract_links(text):# 正则表达式匹配URLpattern = r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+'# 查找所有匹配的URLlinks = re.findall(pattern, text)text_blocks = re.split(pattern, text)combined_text = ''.join(text_blocks)return links,combined_text# 测试函数
text = "这是一个https://hhhh.org段网络上的内容,https://www.example.org里面偷偷卖了一个卖货的链接"
print(extract_links(text))

这里重点看一下正则表达式部分,主要思路是先将http://链接头分离出来,接着枚举所有链接可能出现的字母、数字、常用符号、特殊符号、空格、十六进制数字等,最后用+表示以上字符可以出现一次或多次,具体如下:

  • http[s]?😕/:这部分匹配URL的协议部分,即http://或https://。s?表示s是可选的,即可以有也可以没有。
  • (?:…):这是一个非捕获分组,意味着它不会捕获匹配的文本,只用于分组表达式以应用量词或其他操作。
  • [a-zA-Z]|[0-9]:这部分匹配字母或数字,|表示或,即匹配其中任何一个。
  • [Misplaced &
  • [!\(\),]:这部分匹配更多的符号,包括!、、\、(、)和,。
  • (?:%[0-9a-fA-F][0-9a-fA-F]):这部分用于匹配URL编码的字符,如%20代表空格。[0-9a-fA-F]匹配十六进制数字。
  • +:这是一个量词,表示前面的模式可以出现一次或多次。

三、总结

本文以一个简单的python脚本演示如何通过正则表达式re库分离内容中的文本和链接,希望可以帮助到您。


http://www.ppmy.cn/devtools/112038.html

相关文章

Ansys HFSS的边界条件与激励端口

本文将介绍HFSS边界条件、激励端口,然后重点介绍连接器信号完整性仿真应用最多的波端口(wave port)及其尺寸设置要点。 HFSS (电磁仿真)边界条件 HFSS中所谓的边界并非真正意义上的边界,边界条件是指定问题区域和对象边缘的场行为接口。在HFSS的背景下,边界的存在主要有两个…

Compose Multiplatform+kotlin Multiplatfrom第三弹

前言 上篇文章kmp实战2很多通用业务功能,这篇续着发布队列文件断点下载保存到本地。 package com.your.pkName.utilsimport com.benasher44.uuid.uuid4 import io.ktor.client.call.body import io.ktor.client.request.headers import io.ktor.client.request.pr…

Linux中常见的Docker问题及解决方法

Linux中常见的Docker问题及解决方法 在使用Docker时,难免会遇到各种各样的报错。以下是十个常见的Docker问题及其解决方法: 1. Cannot connect to the Docker daemon 问题描述:执行Docker命令时提示无法连接到Docker守护进程。解决方法&am…

动手学深度学习(pytorch土堆)-02TensorBoard的使用

1.可视化 代码使用了 torch.utils.tensorboard 将数据记录到 TensorBoard 以便可视化。具体来说,它将标量数据记录到目录 logs 中,使用的是 SummaryWriter 类。 代码分解如下: SummaryWriter("logs"):初始化一个 Ten…

vue常用业务场景

vue3: 使用本地存储 import { useStorage } from /hooks/web/useStorage const { getStorage, setStorage, removeStorage } useStorage()setStorage("data", data); // 可为对象使用pinia (1)state: ({isDisableSwitch: false}) (2) getters: getIs…

电脑驱动作用详解

电脑驱动的主要作用是充当操作系统与硬件设备之间的桥梁,使操作系统能够正确地与硬件设备进行通信和控制。具体来说,电脑驱动的作用包括以下几个方面: 1. 硬件与操作系统的接口 翻译指令:驱动程序将操作系统的指令翻译成硬件设备…

【Python报错已解决】 raise JSONDecodeError(“Expecting value“, s, err.value) from None

🎬 鸽芷咕:个人主页 🔥 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 专栏介绍 在软件开发和日常使用中,BUG是不可避免的。本专栏致力于为广大开发者和技术爱好者提供一个关于BUG解决的经…

独立产品灵感周刊 DecoHack #067 - 摸鱼神器与AI视频创作工具

本周刊记录有趣好玩的独立产品/设计/开发相关内容,每周一发布,往期内容同样精彩,感兴趣的伙伴可以到官网查看更多内容。可以邮件订阅或RSS订阅本周刊。欢迎通过 Twitter 私信推荐或投稿。 本期内容涵盖从摸鱼神器、AI视频生成,到乐…