关于搜索引擎的spider

来源:百度知道 编辑:UC知道 时间:2024/06/16 15:20:54
请问高手:
现在开源的几个spider下载的都只有网页,网页内的图片都丢失了。是不是所有的spider都是这样,为了速度。google和baidu的呢?
提问目标是搜索引擎的spider一般会下载网页内包含的图片吗?

开源的Spider大都是基于文本的搜索之目的而把图片、flash .doc .pdf等不影响搜索结果的文件格式所指向的URL过滤掉了,下载的只是页面内的HTMLcode和文字。
图片及可下载的资源都不抓取,但是他们可以把指向这些图片和资源包的URL抓取出来,提供给用户搜索,google和baidu就是这样做的。google和baidu的图片搜索也没有把网页上的图片下载下来,搜索到的图片都是缩略图,估计是用快照工具扫描下来的,点击看到的原图都是内嵌在当前网页打开的,图片还是在原来的网站上。

不太明白 楼主想问点什么。