如何防止坏的机器人蜘蛛和web爬虫来抓取网站的数据?

来源:百度知道 编辑:UC知道 时间:2024/06/20 10:32:39
好像能在服务器配置 禁止除百度,google,雅虎这类正规搜索引擎的爬虫之外的其他爬虫?
若可以怎么配置? 谢谢大家了 万分感激啊 一定追分

一般在http服务器目录下配置robots.txt文件,具体写法网上查;
不过也是有办法突破的,基本上防君子不防小人;大网站也用robots.txt这么做,不过更多的是一种法律上的手段禁止别人爬取,要想技术上做到绝对不允许爬取的话很难,比如taobao屏蔽baidu就是一个例子;
靠robots.txt文件的配置能挡掉很大一部分了;
但如果你想要求更严格,那只能自己做http服务器扩展来保证了,比如开发一个apache的module,挡掉那些不起眼的爬虫。

别上网