有关JAVA的网页数据挖掘问题,高手请进!

来源:百度知道 编辑:UC知道 时间:2024/06/01 12:55:32
//urlStr为url
//regular为正则表达式
public static List singerList(String urlStr,String regular)
{
List list = new ArrayList();
try{
URL url = new URL(urlStr); //获取url
BufferedReader bufferedReader = new BufferedReader(new InputStreamReader(url.openStream(), "utf-8"));
String str=bufferedReader.readLine();
if (str!= null)
{
System.out.println("开始读数据......");
Pattern pattern = Pattern.compile(regular);
java.util.regex.Matcher matcher = pattern.matcher(str);
while(matcher.find()){
String msg=matcher.group();
list.add(msg);
}
}
bufferedReader.close();
}catch(Exception e){
e.printStackTrace();
}
System.out.println("Exceute over !");
return list;
}

某些网页的url在传入后无法读取到信息。与正则表达式无关!
请高手指点。
要说废话的请别进来!

LZ 估计是脑子进水了

啊呀,做爬虫?

哎,这样说吧,你写的东西只能读死的网页,如果是:隐藏编码,2次跳转,POST提交,变换网址,等。这样的网页你是无法获取的...

好好的研究下,网页相关的技术,如果这么容易被你读取到数据,那么别的网站也没有必要做链接的保护措施了...