关键词检测工具

news/2024/11/16 17:35:54/

关键词检测工具，就是根据关键词百度搜搜搜狗等搜索引擎查询获取排名站点地址等相关信息的一个东西。当我接到这个case的时候，首先联想的是一道面试题，就是给你一个html页面让你检索出这个页面的关键信息，这个面试题是比较简单的，就是正则的匹配，因此我也想用正则去获取。不管三七二十一，首先实现再说

其实这个已经不是最初的那个版本了，最古老的那个版本改动面目全非了，这个其实就是四条线程

去读取html然后分析就这样实现了。

过程中遇到问题有

没有考虑清楚需求，页面分析正则维护难

View Code

 1 /// <summary>
 2         /// 根据标签名称获取Html
 3         /// </summary>
 4         /// <param name="TagName">标签名称</param>
 5         /// <param name="HTML">html</param>
 6         /// <returns>返回值列表</returns>
 7         public  List<string> GetHtmlTagByName(string TagName, string HTML)
 8         {
 9             HTML = Regex.Replace(HTML, @"<\s+", "<", RegexOptions.IgnoreCase);
10             HTML = Regex.Replace(HTML, @"\s+>", ">", RegexOptions.IgnoreCase);
11             HTML = Regex.Replace(HTML, @"</\s+", "</", RegexOptions.IgnoreCase);
12             List<string> TagList = new List<string>();
13             string Tag = string.Empty;
14             HTML = HTML.ToLower();
15             int TagLength = TagName.Length;
16             int StartTagLength = TagLength + 2;
17             int EndTagLength = TagLength + 3;
18             List<int> IndexList = new List<int>();
19             for (int i = 0; i < HTML.Length; i++)
20             {
21                 if (HTML[i] == '<')
22                 {
23                     if ((HTML.Length - i) >= StartTagLength)
24                     {//<div> | <div\s
25                         string TemTag = HTML.Substring(i, StartTagLength);
26                         if (TemTag == '<' + TagName + ' ' || TemTag == '<' + TagName + '>')
27                         {
28                             IndexList.Add(i);
29                         }
30                     }
31                     if ((HTML.Length - i) >= EndTagLength)
32                     {//</div>
33                         string TemTag = HTML.Substring(i, EndTagLength);
34                         if (TemTag == "</" + TagName + '>')
35                         {
36                             if (IndexList.Count > 0)
37                             {
38                                 int S = IndexList[IndexList.Count - 1];
39                                 IndexList.Remove(IndexList[IndexList.Count - 1]);//移除最后一个
40                                 TagList.Add(HTML.Substring(S, (i - S) + EndTagLength));
41                             }
42                         }
43                     }
44                 }
45             }
46             return TagList;
47         }