加入收藏 | 设为首页 | 会员中心 | 我要投稿 PHP编程网 - 湛江站长网 (https://www.0759zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

怎样写一个合理的robots.txt文件

发布时间:2022-03-11 23:12:25 所属栏目:建站 来源:互联网
导读:robots.txt文件的写法 User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符 Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录 Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录 Disallow: /require/ 这里定义是禁止爬寻r
  robots.txt文件的写法
  User-agent: *    这里的*代表的所有的搜索引擎种类,*是一个通配符
  Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
  Disallow: /require/   这里定义是禁止爬寻require目录下面的目录
  Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
  Disallow: /ABC 这里定义是禁止爬寻ABC整个目录
  Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
  Disallow: /*?* 禁止访问网站中所有的动态页面
  Disallow: .jpg$ 禁止抓取网页所有的.jpg格式的图片
  Disallow:/ab/adc.html 禁止爬去ab文件夹下面的adc.html所有文件
  User-agent: *   这里的*代表的所有的搜索引擎种类,*是一个通配符
  Allow: /cgi-bin/  这里定义是允许爬寻cgi-bin目录下面的目录
  Allow: /tmp 这里定义是允许爬寻tmp的整个目录
  Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
  Allow: .gif$ 允许抓取网页和gif格式图片
  在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这三个目录。
  需要注意的是对每一个目录必须分开声明,而不要写成 “Disallow: /cgi-bin/ /tmp/”。
  User-agent:后的*具有特殊的含义,代表“any robot”,所以在该文件中不能有“Disallow: /tmp/*” or “Disallow:*.gif”这样的记录出现。
  User-agent: *
  Disallow: /cgi-bin/
  Disallow: /tmp/
  Disallow: /~joe/
  Robot特殊参数:
  允许 Googlebot:
  如果您要拦截除 Googlebot 以外的所有漫游器访问您的网页,可以使用下列语法:
  User-agent:
  Disallow:/
  User-agent:Googlebot
  Disallow:
  Googlebot 跟随指向它自己的行,而不是指向所有漫游器的行。

(编辑:PHP编程网 - 湛江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!