php专区

 首页 > php专区 > 正则表达式 > asp只采集网站可见文本的正则_正则表达式

asp只采集网站可见文本的正则_正则表达式

分享到:
【字体:
导读:
          它可以过虑Js 可以过滤 CSS 过滤HTML标识,只采集页面的可见文本。...

 
我写的是这样:
Function ClearHTMLCode(originCode)
Dim reg
set reg = new RegExp
reg.IgnoreCase = True
reg.Global = True
reg.Pattern = "()"
originCode= reg.Replace(originCode, "")
reg.Pattern = "()"
originCode= reg.Replace(originCode, "")
reg.Pattern = "<[^>]*>"
originCode= reg.Replace(originCode, "")
ClearHTMLCode = originCode
End Function

不过有一些过滤不了!而且速度太慢!
分享到:
asp.net常用正则表达式_正则表达式
匹配中文字符的正则表达式: [\u4e00-\u9fa5] 评注:匹配中文还真是个头疼的事,有了这个表达式就好办了 匹配双字节字符(包括汉字在内):[^\x00-\xff] 评注:可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1) 匹配空白行的正则表达式:\n\s*\r 评注:可以用来删除空白行 匹配HTML标记的正则表达式:< (\S*...
正则表达式轻松消除HTML代码_正则表达式
一、清楚内容中的Javsscript 代码 复制代码 代码如下: Function ClearJSCode(originCode) Dim reg set reg = New RegExp reg.Pattern = "" reg.IgnoreCase = True reg.Global = True ClearHTMLCode = reg.Replace(originCode, "") End Function 现在好多网站的内容都是使用采集程序生成的,使用上边的代码就可以轻松的将...
  •         php迷,一个php技术的分享社区,专属您自己的技术摘抄本、收藏夹。
  • 在这里……