c#页面抓取的问题~~急
来源:百度知道 编辑:UC知道 时间:2024/05/21 07:00:53
根据关键字在百度中搜索,然后把根据该关键字搜索所得到的赞助商的域名全部获取出来
举个例子:我在百度里搜索汽车,会返回众多结果 末尾有推广两个字的就是赞助商 把他们的域名取出就可以 。
希望可以把具体思路告诉我,最好是有代码~
举个例子:我在百度里搜索汽车,会返回众多结果 末尾有推广两个字的就是赞助商 把他们的域名取出就可以 。
希望可以把具体思路告诉我,最好是有代码~
1.用关键字组织成baidu的搜索链接,发送HTTP请求,得到页面所有HTML响应
2.直接用正则表达式匹配以下多个链接中的href属性:
<a class="m" target="_blank" href="http://www.baidu.com/baidu.php?url=dNCK000FBpEBiAowSi......">推广</a>
3.这个URL地址是编码后的,通过这个URL、经过baidu跳转、最后到达赞助商网站,往这些href分别发送HTTP请求,从响应的HTTP头中分析得到跳转到哪个地址,这个地址就是您要的域名了。
商业代码 想要否。。
%汽车%赞助商
用正则表达式匹配