刚刚查看了服务器日志，发现百度蜘蛛来过了

来源：百度知道编辑：UC知道时间：2024/06/16 03:58:56

蜘蛛程序来过了是意味着什么？？？是不是我的站马上就会被收录吗？？？
高手指点下，GOOGLE来的最多，SOUGO也有
2008-05-02 15:19:55 W3SVC1 202.109.175.6 GET /robots.txt - 80 - 61.135.166.81 Baiduspider+(+http://www.baidu.com/search/spider.htm) 404 0 64
蜘蛛程序来过之后，正常的话是不是每天都会来？？？

蜘蛛是自动的随机的不会天天来
搜索引擎服务器会一刻不停的从互联网上抓取网页，存放到本地的机器上，然后建立索引，并且对外提供检索服务。典型的工作流程是
1。搜集
在这个流程中，用网络爬虫或者叫spider的程序模块，不断地从web上寻找网页并且下载下来。最长用的方法是，把整个web网络看作是一个有向图，从种子URL集合开始，开始抓取并且存到本地，并且解析出网页内容中包含的url链接，然后把这些新的url加到url集合中。一般按照宽度优先的方式来查找。这个过程不断重复直到URL集合中所有链接都已经采集过，或者是采集时间限制到了，或者是所有的不超过某一深度的连接都已经采集过了。这些下载下来的网页的标准html文本，以及采集url，采集时间等要素都要记录下来。
采集器还要注意对被采集网站的影响，避免采集造成攻击式的后果。
2。预处理
这个过程比较复杂
2.1 对html网页进行解析并且建立索引
html网页需要去掉html标签和一些垃圾连接，比如广告等。对于网页的正文内容要建立索引。索引是检索最重要的数据来源，对于检索速度和效果影响是根本性的。在索引中词和网页都用数字来标记。常用的是倒排索引，格式如下 termid : docid1 docid2 ...docid3 . 其中termid也就是我们常说的词，（这个要通过对网页内容切词/分词之后得到），在索引中一般用词的编号来代替。docidx是所有包含该term的网页的编号。
2.2 计算每篇网页的重要程度。一般各个网站的首页都比较重要，需要赋予较高的权重。常用的方法是利用网页之间的链接关系,类似学术研究上的相互引用关系,来计算每个网页的重要性,这就是page rank . google就是靠它起家的.
2.3 重复网页的消除. 网络上的网页多是好几份的,大家你抄我的我抄你的,连个错别字都不会改的情况都存在. 这些重复网页浪费了搜索引擎的代价,更重要的是影响检索的效果.
3. 检索服务
我们在检索端输入查询串之后,要经过分词处理.然后利用的到词,得到termid,到前面2.1 生成的索引查找, 得到符合检索条件的网页的id. 然后用网页的内容计算的权重和2.2 计算

查看日志发现错误有好多，请教我在金山毒霸日志查看器里发现了风险程序, 查看日志刚刚WOW服务器怎么了？为什么进我百度空间,一点查看日志就没有音乐了?只能在首页才能听到??WHY? 我刚刚注册的百度却发现自己的帐号给封掉了金山毒霸日志查看器显示发现病毒文件但是怎么查看病毒信息？刚刚发现在百度好象也可以看一些电影？？我刚刚重装系统，发现没声音了！！！事件查看器为什么打不开应用程序日志了?