HTMLParser提取网页

来源:百度知道 编辑:UC知道 时间:2024/05/24 13:59:14
假设有如下一段代码:
<div class="article">
这是无用内容
<b>这是无用内容</b>
这是有效文本
<img src=“a.jpg”/>
这是有效文本
<img src=“b.jpg”/>
这是有效文本
<img src=“c.jpg”/>
</div>
想用HtmlParser把所有有效文本都提取出来,不想一个一个慢慢提取,因为文本和IMG标签重复次数不确定。有智能一点的办法吗?多谢~~

HTMLParser只是一个HTML解析器,现在还有一个更高级的叫做:Java Mozilla HTML parser,是国外的Dapper公司将Mozilla的浏览器解析器用Java编程语言进行了封装,用于他们的著名的语义网络服务网站,后来开源出来贡献给社区。

用解析器将HTML解析成DOM后,应该使用一种合理的方法从DOM中将内容提取出来,例如,XPath和XSLT,上述需求就可以用XSLT提取,XSLT根据匹配规则找出来的是一个节点集合,所以能够解决你说的重复次数不确定的问题,但是,XSLT提取规则并不好编写,可以采用免费软件MetaSeeker,能够自动生成XSLT规则,也可以局部定制规则片段。

欢迎访问我的博客或者访问GooSeeker网站,上面有很多技术资料。

找找规律性