什么是robots.txt文件

news/2024/11/30 20:29:30/

一、什么是robots文件

 

robots

Robots.txt文件是网站跟爬虫间的协议,对于专业SEO并不陌生,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

如您的网站未设置robots协议,搜索引擎对网站视频URL的收录将包含视频播放页URL,及页面中的视频文件、视频周边文本等信息,搜索对已收录的短视频资源将对用户呈现为视频极速体验页。此外,综艺影视类长视频,搜索引擎仅收录页面URL。

User-agent:
该项的值用于描述搜索引擎robot的名字,在”robots.txt”文件中,如果有多条User-agent记录说明有多个robot会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在”robots.txt”文件中,”User-agent:*”这样的记录只能有一条。
Disallow:
该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow开头的URL均不会被robot访问到。例如”Disallow:/help”对/help.html 和/help/index.html都不允许搜索引擎访问,而”Disallow:/help/”则允许robot访问/help.html,而不能访问/help/index.html。任何一条Disallow记录为空,说明该网站的所有部分都允许被访问,在”/robots.txt”文件中,至少要有一条Disallow记录。如果”/robots.txt”是一个空文件,则对于所有的搜索引擎robot,该网站都是开放的。
Allow:
该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL是允许robot访问的。例如”Allow:/hibaidu”允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。
需要特别注意的是Disallow与Allow行的顺序是有意义的,robot会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL。

使用”*”和”$”:
robots支持使用通配符”*”和”$”来模糊匹配url:
“$” 匹配行结束符。
“*” 匹配0或多个任意字符。

二、Robots.txt文件的写法

User-agent: *   (头部标准)
Allow: /        (允许全部搜索引擎捉取)
User-agent: Googlebot (谷歌蜘蛛)
Disallow:       (默认捉取)
User-agent: Baiduspider (百度蜘蛛)
Disallow: /      (禁止捉取)
Sitemap: https://www.l.cn/sitemap.xml  (站点地图)

robots.txt文件

三、在线生成Robots.txt 文件

站长工具Robots.txt生成:http://tool.chinaz.com/robots/
便民查询网Robots.txt生成器:https://robots.51240.com/
Tool在线工具:https://www.qtool.net/robots

四、Robots.txt在线检测工具

当写好robots.txt文件就需要检测是否有写,下面提供几款在线工具帮助大家检测robots是否有写错。

爱站Robots.txt检测工具:https://tools.aizhan.com/robots/

站长工具Robots.txt检测:http://s.tool.chinaz.com/robots/


http://www.ppmy.cn/news/655266.html

相关文章

将文本保存为TXT文档

首先对manifest注册SD卡读写权限 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 AndroidManifest.xml <?xml version "1.0" encoding "utf-8" ?> <manifest xmlns:android" package "com.tes.textsd&q…

Python 基本数据类型(六)

文章目录 每日一句正能量Tuple&#xff08;元组&#xff09;结语 每日一句正能量 一生要做的几件事情一管理好自己的身体。二管理好自己的情绪&#xff0c;正面思维。三服务好自己的家庭&#xff0c;让家人生活幸福。四做好本职工作&#xff0c;做一两件特别完美&#xff0c;石…

Spring创建Bean源码 - 解析配置类: 延迟导入选择器DeferredImportSelector

简介 DeferredImportSelector延迟导入选择器是Spring提供的一个扩展导入器&#xff0c;该导入器是ImportSelector的一个变体&#xff0c;该导入器是在处理配置类上Import注解的时候注册的&#xff0c;当所有{code Configuration}配置类解析完成后才会运行所有被注册的Deferred…

MATLAB求解摄氏温度

问题&#xff1a;用MATLAB编写一个函数&#xff0c;函数功能为要求你输入华氏温度&#xff0c;计算其相应的摄氏温度并输出。当你输入为空时&#xff0c;提示输入有误&#xff0c;程序结束。 function CF2C(F) a(tempreature in F is:); F input(a); if FC (F-32)*5/9;X[tem…

电商基本术语B2B C2C B2C C2B O2O F2C B2B2C

B2B--企业对企业:案例:阿里巴巴、慧聪网 C2C--个人对个人:案例:淘宝、易趣、瓜子二手车 B2C--企业对个人:案例:唯品会、乐蜂网 C2B--个人对企业:案例:海尔商城、 尚品宅配 O2O--线上到线下:案例:美团、饿了吗 F2C--工厂到个人:从厂商到消费者的电子商务模式 B2B2C -企业-…

C++实践之华氏温度转摄氏温度

#include<iostream> #include<cmath> #include<iomanip> using namespace std; int main(){cout<<"输入华氏温度"<<endl;double F;cin >> F;double F2C(double F);cout << setprecision(4) << F2C(F);system("…

docker安装elasticsearch、kibana详细教程

1. docker安装 7.4.2 docker pull elasticsearch:7.4.2 2. 查看elasticsearch镜像是否已安装 docker images 3. 安装 kibana docker pull kibana:7.4.2 4. 查看kibana镜像是否已安装 docker images 5…

浅谈如何编译COIN-OR的开源代码

转载自 http://hi.baidu.com/kaien_space/blog/item/420918134592880a5aaf53c9.html 浅谈如何编译COIN-OR的开源代码 2009-03-04 09:26 COIN-OR 是( COmputationalINfrastructure for Operations Research) 的简称。是国际知名的运筹和优化程序包代码开发组织。集结了当今运筹…