c#页面抓取的问题~~急

来源:百度知道 编辑:UC知道 时间:2024/05/21 07:00:53
根据关键字在百度中搜索,然后把根据该关键字搜索所得到的赞助商的域名全部获取出来

举个例子:我在百度里搜索汽车,会返回众多结果 末尾有推广两个字的就是赞助商 把他们的域名取出就可以 。

希望可以把具体思路告诉我,最好是有代码~

1.用关键字组织成baidu的搜索链接,发送HTTP请求,得到页面所有HTML响应

2.直接用正则表达式匹配以下多个链接中的href属性:
<a class="m" target="_blank" href="http://www.baidu.com/baidu.php?url=dNCK000FBpEBiAowSi......">推广</a>

3.这个URL地址是编码后的,通过这个URL、经过baidu跳转、最后到达赞助商网站,往这些href分别发送HTTP请求,从响应的HTTP头中分析得到跳转到哪个地址,这个地址就是您要的域名了。

商业代码 想要否。。

%汽车%赞助商

用正则表达式匹配