用C#如何提取网页中的动态信息

来源:百度知道 编辑:UC知道 时间:2024/05/16 08:40:45
比如我想抽取博客页面中的评论的数量以及浏览的次数,应该怎样做呢?
有人说调用ie内核,但具体该怎样做还是不知道~
你给的网址暂停新用户注册了,而且,好像并不是我想要的东西,我想要用c#提取大量网页上相同的动态信息,比如博客网页评论的数量,现在网址已经搜集完成了。
非常谢谢大家的回答,对我很有帮助,不过我想提取的是网页中的动态信息,比如说徐静蕾最近的一篇文章:http://blog.sina.com.cn/s/blog_46f37fb50100ah3i.html,下边有评论和阅读的次数,这些都是JavaScript动态生成的,单纯得到html是提取不出来的,这些动态信息该怎样提取呢?好像应该调用ie或者其他的东西,可是具体该怎样做呢?

帮你搞定了,用这个链接就可以得到你想要的信息
http://blogcnf.sinajs.cn/num?uid=46f37fb5&aids=00ah3i&requestId=scriptId_0260892137510
返回结果
$ScriptLoader.response("scriptId_0260892137510",{"00ah3i":{c:925,r:23336,f:6}});

评论(c:925)| 阅读 (r:23344) | 收藏 (f:6)
http://blog.sina.com.cn/s/blog_46f37fb50100ah3i.html
参数uid=46f37fb5,就是这篇文章的id的前8位
aids=00ah3i,就是文章id的后6位
requestId=scriptId_0260892137510,这个还不明确,但是好像不会妨碍返回值,这样只要得到文章链接就可以得到你要的这两个数据了

使用httpwebrequest+httpwebresponse+正则
前2个类在System.Net命名空间中
例如:这个可以帮你读取到网页的源码
Uri uri = new Uri("http://www.baidu.com");
try