C#正则表达式通过HTML提取网页中的图片src

news/2024/11/19 15:21:54/
C#正则表达式通过HTML提取网页中的图片src
原文: C#正则表达式通过HTML提取网页中的图片src

目前在做HoverTreeCMS项目中有处理图片的部分,参考了一下网上案例,自己写了一个获取内容中的图片地址的方法。

可以先看看效果:http://tool.hovertree.com/a/zz/img/

 一般来说一个 HTML 文档有很多标签,比如“<html>”、“<body>”、“<table>”等,想把文档中的 img 标签提取出来并不是一件容易的事。由于 img 标签样式变化多端,使提取的时候用程序寻找并不容易。于是想要寻找它们就必须写一个非常健全的正则表达式,不然有可能会找得不全,或者找出来的不是正确的 img 标签。

我们可以从 HTML 标签的格式去想应该怎么建这个正则表达式。首先要想一下 img 标签有几种写法,忽略大小写不看的话,下面列出 img 标签可能出现的几种情况。
<img> <img/> <img src=/> 

这一些标签不用考虑,因为没有图片资源地址。 
<img src = /images/pic.jpg/ > <img src =" /images/pic.jpg" > <img src= '/images/pic.jpg ' / >

这一些标签都有图片资源地址,另外还有一个特点就是有引号对,可能为单引号,也可能为双引号。因为不需要同时匹配引号对,所以正则表达式可以这么写:@"<img\s*src\s*=\s*[""']?\s*(?[^\s""'<>]*)\s*/?\s*>"
<img width="320" height="240" src=/images/pic.jpg οnclick="window.open('/images/pic.jpg')">

因为 img 和 src 之间可能会有其他的参数,所以“<img”要有个单词结束,比如说不能是“<imgabc”,同样 src 前面也是一样,使用单词结束符“\b”有一个好处就是省去了表示空格的“\s*”。另外由于 img 标签中不可以出现“<”、“>”这样的符号,所以要改写前面的正则表达式:@"<img\b[^<>]*?\bsrc\s*=\s*[""']?\s*(?<imgUrl>[^\s""'<>]*)[^<>]*?/?\s*>"
<img width="320" height="240" src = " 
/images/pic.jpg" /> 

像这种可能会用回车符折行的问题有时候会出现,所以在有空格分开的地方要包含回车换行和 TAB 字符,另外在图片地址中不能出现空格、TAB、回车和换行字符。

所以上面的正则表达式可以改成:@"<img\b[^<>]*?\bsrc[\s\t\r\n]*=[\s\t\r\n]*[""']?[\s\t\r\n]*(?<imgUrl>[^\s\t\r\n""'<>]*)[^<>]*?/?[\s\t\r\n]*>"

下面写出取得HTML中所有图片地址的类HvtHtmlImage:

 1 using System.Text.RegularExpressions;
 2 
 3 namespace HoverTree.HoverTreeFrame.HvtImage
 4 {
 5 public class HvtHtmlImage
 6 {
 7 //效果 http://tool.hovertree.com/a/zz/img/
 8 /// <summary> 
 9 /// 取得HTML中所有图片的 URL。 
10 /// </summary> 
11 /// <param name="sHtmlText">HTML代码</param> 
12 /// <returns>图片的URL列表</returns> 
13 public static string[] GetHvtImgUrls(string sHtmlText)
14 {
15 // 定义正则表达式用来匹配 img 标签 
16 Regex m_hvtRegImg = new Regex(@"<img\b[^<>]*?\bsrc[\s\t\r\n]*=[\s\t\r\n]*[""']?[\s\t\r\n]*(?<imgUrl>[^\s\t\r\n""'<>]*)[^<>]*?/?[\s\t\r\n]*>", RegexOptions.IgnoreCase);
17 //参考:http://hovertree.com/hvtart/bjae/e4pya1x0.htm
18 
19 
20 // 搜索匹配的字符串 
21 MatchCollection matches = m_hvtRegImg.Matches(sHtmlText);
22 int m_i = 0;
23 string[] sUrlList = new string[matches.Count];
24 
25 // 取得匹配项列表 
26 foreach (Match match in matches)
27 sUrlList[m_i++] = match.Groups["imgUrl"].Value;
28 return sUrlList;
29 }
30 }
31 }

更多:http://hovertree.com/hvtart/bjae/r42fdvjj.htm

ASP.NET开源CMS http://www.cnblogs.com/sosoft/p/cms.html

开发技术文章收集 http://www.cnblogs.com/sosoft/p/kaifajishu.html

posted on 2015-12-08 00:40 NET未来之路 阅读( ...) 评论( ...) 编辑 收藏

转载于:https://www.cnblogs.com/lonelyxmas/p/5027976.html


http://www.ppmy.cn/news/911911.html

相关文章

leetcode|math|9.172.69.50.

9. Palindrome Number to_string 就行 172. Factorial Trailing Zeroes 不能直接乘起来&#xff0c;会overflow&#xff01;&#xff01; 166! 就是要找166乘到1一共有几个5。5&#xff0c;10&#xff0c;15&#xff0c;25...都算。166/5就是算一共有几个5。但是25其实贡献了…

2023-07-16 LeetCode每日一题(树中距离之和)

2023-07-16每日一题 一、题目编号 834. 树中距离之和二、题目链接 点击跳转到题目位置 三、题目描述 给定一个无向、连通的树。树中有 n 个标记为 0…n-1 的节点以及 n-1 条边 。 给定整数 n 和数组 edges &#xff0c; edges[i] [ai, bi]表示树中的节点 ai 和 bi 之间有…

linux系统优化设置及软件集合

说明:部分条目没有实践,同时有一些重复的内容,以后改进. 1.更快速的打开网页&#xff0c;在firefox浏览器地址拦里输入about:config 找下面的选项进行修改吧: network.dns.disableIPv6 -> true network.http.pipelining -> true network.http.pipelining.maxrequests -&g…

ubuntu专辑

nl filename |tee filename.out 在filename内容前加行号 或者在vim中直接执行 :%!nl 之后使用vim的多行编辑方式,将多余的行首空格删掉 :%s *$ 将所有行尾多余的空格删除 使用gedit打印filename,在打印选项中,选择打印行号也可以,gedit还可以选择语法高亮是否打印. luth…

ubuntu linux环境使用技巧

ubuntu linux环境使用技巧 2010年07月28日 0) 什么是wubi安装&#xff1f;wubi安装有哪些注意事项&#xff1f; 所谓wubi就是指windows下的ubuntu安装程序(Ubuntu installer for Windows)。注意尽量选择在ntfs分区上安装&#xff0c;这样可以避免若干问题&#xff08;如下述&a…

邮件服务器

邮件服务器 邮件服务器的功能与运作原理:他是利用网络传递一些信息给远程服务器的一种信息传递行为,相当具有时效性,不过现在有很多人乱用,导致垃圾信件,色情,广告信件等等 的滥用,时至今日,Google和几个大型的网络公司都有提供免费或者付费的邮件服务器,除非必要,…

第二十二章、邮件服务器: Postfix

在这个邮件服务器的架设中&#xff0c;我们首先谈论 Mail 与 DNS 的重要相关性&#xff0c;然后依序介绍 Mail Server 的相关名词&#xff0c;以及 Mail Server 的运作基本流程与协议&#xff0c;也会谈到相关的 Relay 与邮件认证机制等项目&#xff0c; 这些项目对于未来邮件服…

鸟哥的Linux私房菜(服务器)- 第二十二章、邮件服务器: Postfix

第二十二章、邮件服务器&#xff1a; Postfix 最近更新日期&#xff1a;2011/08/10 在这个邮件服务器的架设中&#xff0c;我们首先谈论 Mail 与 DNS 的重要相关性&#xff0c;然后依序介绍 Mail Server 的相关名词&#xff0c;以及 Mail Server 的运作基本流程与协议&#xff…