如何让网址不被百度

来源:百度知道 编辑:UC知道 时间:2024/05/22 03:22:54
在百度等不被搜索出来?
说明的清楚点吧~~

逃避搜索引擎的法眼

作为搜索引擎的开发者,同样留给了网络管理员或网页制作者提供了些方法来限制网络机器人的行动:

当robots访问一个网站(比如http://www.yoursite.com)时,首先会像一个大宅子的陌生访问者一样,先查看查看该宅子是否同意它进入。如果不同意,它就悄然无声的走掉;如果同意,它会看看主人只允许它进入那些房间。网络机器人首先检查该网站中是否存在http://www.yoursite.com/robots.txt这个文件,如果找不到这个文件,那么,机器人就会横冲直入,查遍它需要查找的信息。如果机器人找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。当然,如果该文件的内容为空的话,那么也就相当于没有找到文件一样,大胆行事。记住robots.txt文件应该放在网站根目录下。

robots.txt文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow行,详细情况如下:

User-agent:

该值用于描述搜索引擎robot的名字,不同的搜索引擎是有不同的名字的,在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到该协议的限制,对这个文件来说,如果你需要限制robots,那么至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在"robots.txt"文件中," User-agent: * "这样的记录只能有一条。

Disallow :

该值用于限制robot访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow 开头的URL均不会被robo