HTMLParser提取网页

来源：百度知道编辑：UC知道时间：2024/05/24 13:59:14

假设有如下一段代码：
<div class="article">
这是无用内容
<b>这是无用内容</b>
这是有效文本
<img src=“a.jpg”/>
这是有效文本
<img src=“b.jpg”/>
这是有效文本
<img src=“c.jpg”/>
</div>
想用HtmlParser把所有有效文本都提取出来，不想一个一个慢慢提取，因为文本和IMG标签重复次数不确定。有智能一点的办法吗？多谢~~

HTMLParser只是一个HTML解析器，现在还有一个更高级的叫做：Java Mozilla HTML parser，是国外的Dapper公司将Mozilla的浏览器解析器用Java编程语言进行了封装，用于他们的著名的语义网络服务网站，后来开源出来贡献给社区。

用解析器将HTML解析成DOM后，应该使用一种合理的方法从DOM中将内容提取出来，例如，XPath和XSLT，上述需求就可以用XSLT提取，XSLT根据匹配规则找出来的是一个节点集合，所以能够解决你说的重复次数不确定的问题，但是，XSLT提取规则并不好编写，可以采用免费软件MetaSeeker，能够自动生成XSLT规则，也可以局部定制规则片段。

欢迎访问我的博客或者访问GooSeeker网站，上面有很多技术资料。

找找规律性

HtmlParser.NET是什么? htmlparser的问题求教网页视频提取提取网页中的音频提取网页中的FLASH 怎样提取网页中的flash? 如何提取网页中的声音怎么样提取网页中的FLASH？？如何提取网页中的文字？怎么提取网页中的FLASH