关于搜索引擎的spider

来源：百度知道编辑：UC知道时间：2024/06/16 15:20:54

请问高手:
现在开源的几个spider下载的都只有网页，网页内的图片都丢失了。是不是所有的spider都是这样，为了速度。google和baidu的呢？
提问目标是搜索引擎的spider一般会下载网页内包含的图片吗？

开源的Spider大都是基于文本的搜索之目的而把图片、flash .doc .pdf等不影响搜索结果的文件格式所指向的URL过滤掉了，下载的只是页面内的HTMLcode和文字。
图片及可下载的资源都不抓取，但是他们可以把指向这些图片和资源包的URL抓取出来，提供给用户搜索,google和baidu就是这样做的。google和baidu的图片搜索也没有把网页上的图片下载下来，搜索到的图片都是缩略图，估计是用快照工具扫描下来的，点击看到的原图都是内嵌在当前网页打开的，图片还是在原来的网站上。

不太明白楼主想问点什么。

spider的英文谚语？？？关于搜索引擎的问题关于搜索引擎的技术关于搜索引擎的关于搜索引擎的问题? 关于搜索引擎的书 Red Spider Lily的中文关于搜索引擎的一个问题关于搜索引擎公司的问题关于搜索引擎代码的问题。