求 C#2.0 写的 网页内容分析源代码

来源:百度知道 编辑:UC知道 时间:2024/05/16 10:36:22
求 C#2.0 写的 网页内容分析源代码
要求能分析格式不严格的html代码
功能像javascript 的getElementById,getElementsByName,getElementsByTagName 等,差不多,即使不是这样,只要能灵活分析网页内容也可了,急用!
我是想从网上自动读取网页再做分析,就像蜘蛛程序一样.
最多只能赏100分,如果回答让我满意,我还可以另外再给分.
我的 邮箱:zhaojunjie@zhaojunjie.com
QQ:363810506

你所说属于 HTML 标签解析器,.NET 只提供了 XML 解析程序却没有提供 HTML 的,若你分析的 HTML 语法严格标准,则可以用 XML 类加载,否则则不行。

你可以用“百度”搜索“C# 搜索引擎源代码”,然后下载,在源代码包里面就有 HTML 解析程序。

或者利用 MarkupService 实现 HTML 解析为 DOMTree
参考:http://www.aspxboy.com/private/1879/default.aspx

------------------------------------------
若只是仅仅分析网页抓取数据,建议学习正则表达式。偶通过实践证明:利用正则表达式分析网页获取数据要比第三方的 HTML 解析器,速度上高效许多。

发过了。楼主可以结账了哦

正则表达式