在新闻采集中我们得到了源数据流并且已经转换可识别的字符,那么此时我们应该是从这个网页中提取我们需要的内容,比如标题,关键字,和新闻正文等等.
常常很多人在提取文字的时候使用的办法是通过字符位置去提取,这样是一个办法但是效率不高,Asp也提供正则表达式,通过正则表达式去提取字符串那是最高效的办法.
'正则匹配
Function RegExpSerch(Pat,ExeStrs,Caps,Glo)
Dim objRegExp,Matches,Mati,ReturnStr
Set objRegExp = New RegExp
objRegExp.IgnoreCase = Caps '忽略大小写
objRegExp.Global = Glo '设置为全文搜索
objRegExp.Pattern = Pat '搜索匹配
Set Matches = objRegExp.Execute(ExeStrs) '开始执行配置
IF Matches.Count > 0 Then
Redim ReturnStr(Matches.Count-1)
For Mati=0 to Matches.Count-1
ReturnStr(Mati) = Matches.Item(Mati)
Next
RegExpSerch = ReturnStr
Else
RegExpSerch = ""
End IF
Set objRegExp = Nothing
End Function
参数说明:
Pat: 正则表达式,规则你可以查询百度,如 给定起始字符串和结束字符串数据,如果存在换行使用: "
ExeStrs: 需要查找的字符串
Caps: 是否区分大小写 true 和 false
Glo: 是否全局匹配