robots.txt详细介绍-网站技术-云服务器技术网

首页网站技术正文

robots.txt详细介绍

2022-02-19 696

Robots协议（也称爬虫协议，机器人协议等）的全称是“网络爬虫排除协议”，网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

可以让蜘蛛更高效的爬行网站；

可以阻止蜘蛛爬行动态页面，从而解决重复收录的问题；

可以减少蜘蛛爬行无效页面，节省服务器带宽；

创建一个文本文档，重命名为Robots.txt，编写规则，用FTP把文件上传到空间；

创建robots.txt文件需注意：

1.必须是txt结尾的纯文本文件；

2.文件名所有字母必须是小写；

3.文件必须要放在网站根目录下；

User-agent：

作用：用于描述搜索引擎蜘蛛的名字；

案例：

User-agent：*

*是一个通配符，表示所有的搜索引擎都可以来

User-agent：Baiduspider

表示允许百度来！默认都是“*”

Disallow：

作用：用于描述不允许搜索引擎蜘蛛爬行和抓取的url；

案例：

Disallow:/admin/

不允许蜘蛛抓取/admin这个目录及下面的文件

注：在robots.txt中至少要有一条disallow；

Disallow记录为空，则表示网站所有页面都允许被抓取；

Allow：

作用：用于描述搜索引擎蜘蛛爬行和抓取的url，搜索引擎默认所有的url是Allow；

案例：

Allow: /
或
Allow:

允许搜索引擎抓取所有.

使用建议：

写完robots.txt文件，到站长平台检查是否有误；

内容越简单越好，遵守规范，不要放置其他内容；

原文链接：https://77isp.com/post/49.html

=========================================

https://77isp.com/ 为 “云服务器技术网” 唯一官方服务平台，请勿相信其他任何渠道。