如何用VB.net采集网页信息?

来源:百度知道 编辑:UC知道 时间:2024/05/22 01:01:31
我想采集贴吧的信息
我的思路是这样的:

1.得到网页源代码
2.正则表达式替换掉HTML语句等
3.分析并采集

在第一步我就遇到了问题
依靠网上的方法,我不能很好地得到网页源代码
不是出现乱码就是只能显示部分

请问这怎么解决?
有没有更好的采集网页信息的方法?
有几百页呢,我不可能手工下载

我前两天刚做过类似的事情,down了一个网站的产品库到数据库里。

第一步:把所有页面下载到本地
第二步:分析页面结构
第三步:通过正则表达式不断去掉没用的内容,找到规律做成2纬数组
第四步:当有二维数组的时候,就什么都有了。