robots.txt详细介绍

 2022-02-19    626  

Robots协议(也称爬虫协议,机器人协议等)的全称是“网络爬虫排除协议”,网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

Robots.txt的作用:

可以让蜘蛛更高效的爬行网站;

可以阻止蜘蛛爬行动态页面,从而解决重复收录的问题;

可以减少蜘蛛爬行无效页面,节省服务器带宽;

如何制作Robots.txt文件?

创建一个文本文档,重命名为Robots.txt,编写规则,用FTP把文件上传到空间;

创建robots.txt文件需注意:

1.必须是txt结尾的纯文本文件;

2.文件名所有字母必须是小写;

3.文件必须要放在网站根目录下;

Robots参数:

User-agent:

作用:用于描述搜索引擎蜘蛛的名字;

案例:

User-agent:*

*是一个通配符,表示所有的搜索引擎都可以来

User-agent:Baiduspider

表示允许百度来!默认都是“*”


Disallow:

作用:用于描述不允许搜索引擎蜘蛛爬行和抓取的url;

案例:

Disallow:/admin/

不允许蜘蛛抓取/admin这个目录及下面的文件

注:在robots.txt中至少要有一条disallow;

Disallow记录为空,则表示网站所有页面都允许被抓取;


Allow:

作用:用于描述搜索引擎蜘蛛爬行和抓取的url,搜索引擎默认所有的url是Allow;

案例:

Allow: /
或
Allow:

允许搜索引擎抓取所有.


使用建议:

写完robots.txt文件,到站长平台检查是否有误;

内容越简单越好,遵守规范,不要放置其他内容;

原文链接:https://77isp.com/post/49.html

=========================================

https://77isp.com/ 为 “云服务器技术网” 唯一官方服务平台,请勿相信其他任何渠道。