广州凡科互联网科技有限公司

营业时间
MON-SAT 9:00-18:00

全国服务热线
18720358503

公司门店地址
广州市海珠区工业大道北67号凤凰创意园

怎样正确应用robots.txt及其详解

日期:2021-03-26 浏览:

怎样正确应用robots.txt及其详解


短视頻,自新闻媒体,达人种草1站服务

甚么是robots文档

robots是站点与spider沟通交流的关键方式,站点根据robots文档申明该网站中不想被检索模块收录的一部分或特定检索模块只收录特殊的一部分。请留意,仅当您的网站包括不期待被检索模块收录的內容时,才必须应用robots.txt文档。假如您期待检索模块收录网站上全部內容,请勿创建robots.txt文档。

robots文档常常置放于根文件目录下,包括1条或更多的纪录,这些纪录根据空行分开(以CR,CR/NL, or NL做为完毕符),每条纪录的文件格式以下所示:

":"

在该文档中可使用#开展注释,实际应用方式和UNIX中的国际惯例1样。该文档中的纪录一般以1行或多行User-agent刚开始,后边再加若干Disallow和Allow行,详尽状况以下:

User-agent:该项的值用于叙述检索模块robot的姓名。在"robots.txt"文档中,假如有好几条User-agent纪录表明有好几个robot会遭受"robots.txt"的限定,对该文档来讲,最少要有1条User-agent纪录。假如该项的值设为*,则对任何robot均合理,在"robots.txt"文档中,"User-agent:*"这样的纪录只能有1条。假如在"robots.txt"文档中,添加"User-agent:SomeBot"和若干Disallow、Allow行,那末名为"SomeBot"只遭受"User-agent:SomeBot"后边的 Disallow和Allow行的限定。

Disallow:该项的值用于叙述不期待被浏览的1组URL,这个值能够是1条详细的相对路径,还可以是相对路径的非空前缀,以Disallow项的值开始的URL不容易被 robot浏览。比如"Disallow:/help"严禁robot浏览/help.html、/helpabc.html、/help/index.html,而"Disallow:/help/"则容许robot浏览/help.html、/helpabc.html,不可以浏览/help/index.html。"Disallow:"表明容许robot浏览该网站的全部url,在"/robots.txt"文档中,最少要有1条Disallow纪录。假如"/robots.txt"不存在或为空文档,则针对全部的检索模块robot,该网站全是对外开放的。

Allow:该项的值用于叙述期待被浏览的1组URL,与Disallow项类似,这个值能够是1条详细的相对路径,还可以是相对路径的前缀,以Allow项的值开始的URL 是容许robot浏览的。比如"Allow:/hibaidu"容许robot浏览/hibaidu.htm、/hibaidu.html、/hibaidu/.html。1个网站的全部URL默认设置是Allow的,因此Allow一般与Disallow配搭应用,完成容许浏览1一部分网页页面另外严禁浏览其它全部URL的作用。

应用"*"and"$":Baiduspider适用应用通配符"*"和"$"来模糊不清配对url。

"*" 配对0或好几个随意标识符

"$" 配对行完毕符。

最终必须表明的是:百度搜索会严苛遵循robots的有关协议书,请留意区别您不想被抓取或收录的文件目录的尺寸写,百度搜索会对robots中所写的文档和您不想被抓取和收录的文件目录做精准配对,不然robots协议书没法起效。

robots文档用法举例




新闻资讯

联系方式丨CONTACT

  • 全国热线:18720358503
  • 传真热线:18720358503
  • Q Q咨询:2639601583
  • 企业邮箱:2639601583@qq.com

首页
电话
短信
联系