求网络爬虫的源代码,急!!

来源:百度知道 编辑:UC知道 时间:2024/05/27 03:27:10
一定要是能够正确采集网页url以及其他的一些信息,要能够运行成功的。
1楼的代码 你自己运行下看看,你那代码我已经在网上搜了10多条记录了。。。错误一堆
2楼的 你给的网站打不开啊

这有一个,不知道副不符合你的要求啊

public class Spider implements Runnable {
private ArrayList urls; //URL列表
private HashMap indexedURLs; //已经检索过的URL列表
private int threads ; //初始化线程数
public static void main(String argv[]) throws Exception {
if(argv[0] == null){
System.out.println("Missing required argument: [Sit URL]";
return ;
}
Spider Spider = new Spider(argv[0]);
Spider.go();
}
public Spider(String strURL) {
urls = new ArrayList();
threads = 10;
urls.add(strURL);
threadList = new ArrayList();
indexedURLs = new HashMap();
if (urls.size() == 0)
throw new IllegalArgumentException("Missing required argument: -u [start url]";
if (threads < 1)
throw new IllegalArgumentException(&q