除了用正则,还有什么方法可以采集(抽取页面信息)?
来源:百度知道 编辑:UC知道 时间:2024/06/18 11:52:35
除了用正则,还有什么方法可以采集(抽取页面信息)?
没有。
就是有,也是将正则分拆而已;另外,正则只是将处理代码简化而已,并不一定就是最快的。
针对固定版面的页面,可以用搜索+取字符串实现。
如果页面的结构比较固定,可以用xml方式读取,用xpath搜索
关注
OCR
UC知道是一部内容开放、自由的互动网络百科全书
客观、专业、权威的知识性百科全书
来源:百度知道 编辑:UC知道 时间:2024/06/18 11:52:35
没有。
就是有,也是将正则分拆而已;另外,正则只是将处理代码简化而已,并不一定就是最快的。
针对固定版面的页面,可以用搜索+取字符串实现。
如果页面的结构比较固定,可以用xml方式读取,用xpath搜索
关注
OCR