众果搜的博客

脚踏大地,仰望星空,致力于在线网络工具的开发与普及,以及其他思考

Search(博客搜索)

热文排行

最近发表

最新评论及回复

« 联通手机实现股票到价提醒文章照妖镜(手动档)使用指南与应急指南 »

清除HMTL标记的CSharp函数

如果需要清除后台获得的网页源文件中的HMTL标记,那么需要使用正则表达式,下面这个直接编写为函数的程序,各位可以直接使用,也可以在这里先测试一下。看看效果如何

  1. using System.Text.RegularExpressions;     //包含正则表达式   
  2.   
  3.      public static string NoHTML(string Htmlstring) //去除HTML标记   
  4.       {   
  5.           //删除脚本   
  6.           Htmlstring = Regex.Replace(Htmlstring, @"<script[^>]*?>.*?</script>""", RegexOptions.IgnoreCase);   
  7.           //删除HTML   
  8.           Htmlstring = Regex.Replace(Htmlstring, @"<(.[^>]*)>""", RegexOptions.IgnoreCase);   
  9.           Htmlstring = Regex.Replace(Htmlstring, @"([\r\n])[\s]+""", RegexOptions.IgnoreCase);   
  10.           Htmlstring = Regex.Replace(Htmlstring, @"-->""", RegexOptions.IgnoreCase);   
  11.           Htmlstring = Regex.Replace(Htmlstring, @"<!--.*""", RegexOptions.IgnoreCase);   
  12.   
  13.           Htmlstring = Regex.Replace(Htmlstring, @"&(quot|#34);""\"", RegexOptions.IgnoreCase);   
  14.           Htmlstring = Regex.Replace(Htmlstring, @"&(amp|#38);""&", RegexOptions.IgnoreCase);   
  15.           Htmlstring = Regex.Replace(Htmlstring, @"&(lt|#60);""<", RegexOptions.IgnoreCase);   
  16.           Htmlstring = Regex.Replace(Htmlstring, @"&(gt|#62);"">", RegexOptions.IgnoreCase);   
  17.           Htmlstring = Regex.Replace(Htmlstring, @"&(nbsp|#160);"" ", RegexOptions.IgnoreCase);   
  18.           Htmlstring = Regex.Replace(Htmlstring, @"&(iexcl|#161);""\xa1", RegexOptions.IgnoreCase);   
  19.           Htmlstring = Regex.Replace(Htmlstring, @"&(cent|#162);""\xa2", RegexOptions.IgnoreCase);   
  20.           Htmlstring = Regex.Replace(Htmlstring, @"&(pound|#163);""\xa3", RegexOptions.IgnoreCase);   
  21.           Htmlstring = Regex.Replace(Htmlstring, @"&(copy|#169);""\xa9", RegexOptions.IgnoreCase);   
  22.           Htmlstring = Regex.Replace(Htmlstring, @"&#(\d+);""", RegexOptions.IgnoreCase);   
  23.   
  24.           Htmlstring.Replace("<""");   
  25.           Htmlstring.Replace(">""");   
  26.           Htmlstring.Replace("\r\n""");   
  27.           Htmlstring = HttpContext.Current.Server.HtmlEncode(Htmlstring).Trim();   
  28.   
  29.           return Htmlstring;   
  30.       }

或者

  1. /// <summary>   
  2.       /// 将所有HTML标签替换成""   
  3.       /// </summary>   
  4.       /// <param name="strHtml"></param>   
  5.       /// <returns></returns>   
  6.       public static string StripHTML(string strHtml)   
  7.       {   
  8.           string[] aryReg ={   
  9.      @"<script[^>]*?>.*?</script>",   
  10.      @"<(\/\s*)?!?((\w+:)?\w+)(\w+(\s*=?\s*(([""'])(file://[""'tbnr]|[^/7])*?/7|/w+)|.{0})|/s)*?(///s*)?>",   
  11.      @"([\r\n])[\s]+",   
  12.      @"&(quot|#34);",   
  13.      @"&(amp|#38);",   
  14.      @"&(lt|#60);",   
  15.      @"&(gt|#62);",    
  16.      @"&(nbsp|#160);",    
  17.      @"&(iexcl|#161);",   
  18.      @"&(cent|#162);",   
  19.      @"&(pound|#163);",   
  20.      @"&(copy|#169);",   
  21.      @"&#(\d+);",   
  22.      @"-->",   
  23.      @"<!--.*\n"  
  24.        
  25.     };   
  26.   
  27.           string[] aryRep = {   
  28.       "",   
  29.       "",   
  30.       "",   
  31.       "\"",   
  32.       "&",   
  33.       "<",   
  34.       ">",   
  35.       " ",   
  36.       "\xa1",//chr(161),   
  37.       "\xa2",//chr(162),   
  38.       "\xa3",//chr(163),   
  39.       "\xa9",//chr(169),   
  40.       "",   
  41.       "\r\n",   
  42.       ""  
  43.      };   
  44.   
  45.           string newReg = aryReg[0];   
  46.           string strOutput = strHtml;   
  47.           for (int i = 0; i < aryReg.Length; i++)   
  48.           {   
  49.               Regex regex = new Regex(aryReg[i], RegexOptions.IgnoreCase);   
  50.               strOutput = regex.Replace(strOutput, aryRep[i]);   
  51.           }   
  52.   
  53.           strOutput.Replace("<""");   
  54.           strOutput.Replace(">""");   
  55.           strOutput.Replace("\r\n""");   
  56.   
  57.   
  58.           return strOutput;   
  59.       }  

用起来很是不错。我用的第一个,第二个没有测试。原文链接:http://jhxk.javaeye.com/blog/436867

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

Powered By Z-Blog 1.8 Spirit Build 80722 Code detection by Codefense

Copyright www.zhongguosou.com. Some Rights Reserved.