robots.txt是搜索引擎中的一个协议,当你的网站有一些内容不想给蜘蛛爬取,那可以利用robots.txt来告诉蜘蛛不要去爬取这些页面,不爬取这些页面当然就不收录了。
robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
robots.txt规则怎么写
新建一个txt文本,命名为robots.txt,比如说你不想给蜘蛛去爬你网站后台这个文件夹,那就就这样写,该文件放在网站根目录
User-agent: *
Disallow: /admin/
解释:
User-agent: * 这个是代表所有搜索引擎
Disallow: /admin/ 禁止爬取admin这个文件夹
Disallow: / 代表根目录所有
Allow: / 代表允许 例子:比如说你禁止webdesgn文件夹 但是你又想让他收录webdesign下的wangzhanjianshe 写法Allow:
/webdesign/wangzhanjianshe/*.html 收录webdesign下的wangzhanjianshe下的所有html
如果你只想对百度有效,那就这样写。User-agent: Baiduspider 这样只对百度有效,其它搜索引擎不受限制。
搜索引擎蜘蛛的名字:Baiduspider 百度蜘蛛、Googlebot 谷歌蜘蛛、Bingbot 必应蜘蛛、360Spider 360蜘蛛、Sogouspider 搜狗蜘蛛