非结构化数据与结构化数据（爬虫）-16

embedded/2025/3/26 15:52:42/

1. 页面解析和数据提取

一般来说，抓取某个网站或某个应用的内容，提取有用的价值。内容一般分为2部分，非结构化数据和结构化数据。

不同类型的数据，需要采用不通过的方式来处理

概念：

正则表达式，通常用来检索、替换符合某个规则的文本。

正则表达式式对字符串操作的一种逻辑公式，就是用先定义好的一些特定字符，及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

应用：

语法	说明	表达式实例	完整匹配的字符串
一般字符	匹配自身	abc	abc
.	匹配任意除换行符 “\n” 外的字符。在DOTALL模式中也能匹配到换行符	a.c	abc
\	转义字符，使用后一个字符改变原来的意思。如果字符串中有字符 * 需要匹配，可以使用 * 或者字符集 [*]	a.c a\c	a.c a\c
[…]	字符集（字符类）。对应的位置可以是字符集中任意字符。字符集中的字符可以逐个列出，也可以给出范围，如[abc]或[a-c]。第一个字符如果是^{则表示取反，如[}abc]表示不是abc的其他字符。所有的特殊字符在字符集中和都失去原有的特殊含义。在字符集中如果使用 ] \ - 或 ^ ，可以在前面加上反斜杠，或把 ] \ - 放在第一个字符，把^放在非第一个字符	a[bcd]e	abe ace ade

语法	说明	表达式实例	完整匹配的字符串
\d	数字：[0-9]	a\dc	a1c
\D	非数字：[^\d]	a\Dc	abc
\s	空白字符：[<空格>\t\r\n\f\v]	a\sc	a c
\S	非空白字符：[^\s]	a\Sc	abc
\w	单词字符：[A-Za-z0-9_]	a\wc	abc
\W	非单词字符：[^\w]	a\Wc	a c

语法	说明	表达式实例	完整匹配的字符串
*	匹配前一个字符0或无限次	abc*	ab abccc
+	匹配前一个字符1次或无限次	abc+	abc abccc
？	匹配前一个字符0次或1次	abc?	ab abc
{m}	匹配前一个字符m次