2022-02-19 696
Robots协议(也称爬虫协议,机器人协议等)的全称是“网络爬虫排除协议”,网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
可以让蜘蛛更高效的爬行网站;
可以阻止蜘蛛爬行动态页面,从而解决重复收录的问题;
可以减少蜘蛛爬行无效页面,节省服务器带宽;
创建一个文本文档,重命名为Robots.txt,编写规则,用FTP把文件上传到空间;
创建robots.txt文件需注意:
1.必须是txt结尾的纯文本文件;
2.文件名所有字母必须是小写;
3.文件必须要放在网站根目录下;
User-agent:
作用:用于描述搜索引擎蜘蛛的名字;
案例:
User-agent:*
*是一个通配符,表示所有的搜索引擎都可以来
User-agent:Baiduspider
表示允许百度来!默认都是“*”
Disallow:
作用:用于描述不允许搜索引擎蜘蛛爬行和抓取的url;
案例:
Disallow:/admin/
不允许蜘蛛抓取/admin这个目录及下面的文件
注:在robots.txt中至少要有一条disallow;
Disallow记录为空,则表示网站所有页面都允许被抓取;
Allow:
作用:用于描述搜索引擎蜘蛛爬行和抓取的url,搜索引擎默认所有的url是Allow;
案例:
Allow: / 或 Allow:
允许搜索引擎抓取所有.
使用建议:
写完robots.txt文件,到站长平台检查是否有误;
内容越简单越好,遵守规范,不要放置其他内容;
原文链接:https://77isp.com/post/49.html
=========================================
https://77isp.com/ 为 “云服务器技术网” 唯一官方服务平台,请勿相信其他任何渠道。
数据库技术 2022-03-28
网站技术 2022-11-26
网站技术 2023-01-07
网站技术 2022-11-17
Windows相关 2022-02-23
网站技术 2023-01-14
Windows相关 2022-02-16
Windows相关 2022-02-16
Linux相关 2022-02-27
数据库技术 2022-02-20
抠敌 2023年10月23日
嚼餐 2023年10月23日
男忌 2023年10月22日
瓮仆 2023年10月22日
簿偌 2023年10月22日
扫码二维码
获取最新动态