网站数据采集问题

来源:百度知道 编辑:UC知道 时间:2024/05/22 03:01:10
我想问一下,我想从一个网站上采集他的数据,其中想采集<h1>到</h1>之间的内容,但是他的网站上有两处地方是<h1>到</h1>的..只能采集到前面的那个内容,有什么办法采集到后面那个<h1>到</h1>之前的内容啊?

Set RegEx = new RegExp
RegEx.Global = True'全文搜索
RegEx.IgnoreCase = True'不区分大小写
RegEx.Pattern = "<H1>.*</H1>"'设置正则表达式
RegEx.Execute("你要查找的HTML代码")
For Each Match in Matches 'Matches 集合
RetStr = RetStr & Match.Value & "|" '得到查询内容
Next
arr = Split(RetStr,"|")'得到结果
最后arr是个储存你想要的内容的数组,后面就看你的了