WordPress的Robots协议怎么写？附最新Robots.txt文件下载-西城知道

很多建站新手对robots.txt文件的重要作用不是很清楚，利用这篇文章普及一下WordPress站点robots.txt文件编写知识。

最近我发现搜索引擎收录了很多“夏末浅笑博客”的重复页面，当然了这跟我前一段时间，将站点根目录下的Robots.txt文件删除掉有直接的关系，Robots.txt文件是一个用来告诉搜索引擎执行Robots协议的文件，我们将Robots协议写在Robots.txt文件里面，告诉搜索引擎我的网站哪些页面可以收录，哪些页面不可以收录。

搜索引擎机器人访问网站时，首先会寻找站点根目录有没有 robots.txt文件，如果有这个文件就根据文件的内容确定收录范围，如果没有就按默认访问以及收录所有页面。另外，当搜索蜘蛛发现不存在robots.txt文件时，会产生一个404错误日志在服务器上，从而增加服务器的负担，因此为站点添加一个robots.txt文件还是很重要的。

那我为什么要删除掉我们网站下面的Robots.txt文件呢？这跟前一段时间搜索引擎抓取不到服务器吧文章图片有关系，为了能让搜索引擎更好的抓取网站内容，我最终才决定删除掉了Robots.txt文件，放任搜索引擎蜘蛛任意抓取我们网站的所有内容。

当然了效果是有的，目前网站在搜索引擎的索引页面出图率已经正常了，可是伴随着出图率的恢复，文章重复页面的收录问题也显现了，大家都知道WordPress是一个动态建站程序，他并不像织梦CMS跟帝国CMS那种静态网站，因此我们使用WordPress搭建好网站以后，一般都要对其先进行伪静态设置，这也是让搜索引擎更好的抓取网站内容的一种必要的设置。

什么是Robots？

Robots是网站跟爬虫间的协议，用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限，也就是说Robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在Robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

什么是动态地址？什么是静态地址？

但是我们设置了伪静态，搜索引擎还是会抓取动态地址，大家这里可能有点不能理解，我来跟大家解释一下吧，例如我们使用WordPress发布了一篇文章，而这篇文章在我们没有设置伪静态的时候，他的文章链接是默认的动态地址，例如：你的网址/?p=123，而在我们设置了伪静态规则后他的地址就会变成“你的网址/123.html”这样的静态化链接地址，而搜索引擎蜘蛛在抓取内容的时候，他却看到了两个标题一样但是地址不一样的网址链接，因此他觉得是两篇文章，所以他将两个指向同一篇文章的链接抓取了回去，这就导致我们在搜索引擎索引页面会出现重复收录的问题。

举例：

静态：https://028.sevenit.cn/14842.html

动态；https://028.sevenit.cn/?p=14842

一个是动态页面地址，一个是静态页面地址，这就是我们上面所说的文章重复收录问题，这个问题严重的情况下会造成网站降权，甚至被K，而且就其本身来说，也会导致相关页面的权重分散，那我们的WordPress有没有一种方法来避免这种情况呢？答案是肯定，那就是我们本文要讲的通过设置Robots协议，来告诉搜索引擎我们WordPress网站的哪些页面可以收录，哪些页面不可以收录。

WordPress的Robots协议怎么写？

关于WordPress的Robots协议怎么写？知道君在网上查阅了很多大神的相关教程，而因为每一个大神想给搜索引擎看到的网站内容都不同，因此他们的Robots协议设置也都各有不同，不过大致上都会通过这两行代码“

Disallow: /wp-admin/

Disallow: /wp-includes/

”来禁止搜索引擎蜘蛛抓取相关WordPress网站根目录，这里的“Disallow: ”就是禁止抓取的意思，下面我们下来了解一下Robots协议怎么写吧。

Robots协议命令

User-agent:

User-agent:是用来指定搜索引擎的，这里我们网站一般是允许搜索引擎访问的，因此书写为“User-agent: * ”，这里的“ * ”是通用命令符。

Disallow:

在上面我们已经说了“Disallow: ”就是禁止抓取的意思，使用“Disallow: ”我们告诉搜索引擎那些网站内容不允许收录和抓取。

Allow:

“Allow:”是允许的意思，也就是我使用“Allow:”可以告诉搜索引擎那些网站内容可以被收录抓取。

Sitemap:

“Sitemap:”用来告诉搜索引擎抓取我们网站的网站地图Sitemap.xml文件的位置。

我根据网上大神们分享的Robots协议重写的WordPress Robots协议

User-agent: *
Allow: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /wp-
Disallow: /wp-*
Disallow: /wp-*.php
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /*?connect=*
Disallow: /page/
Disallow: /page/*
Disallow: /*/*/page/
Disallow: /page/1$
Disallow: /date/
Disallow: /xmlrpc.php
Disallow: /*/comment-page-*
Disallow: /*?replytocom=*
Disallow: /category/*/page/
Disallow: /tag/*/page/
Disallow: /trackback/
Disallow: /*/trackback
Disallow: */trackback
Disallow: /*/*/trackback
Disallow: /feed
Disallow: /feed/
Disallow: /*/feed
Disallow: */feed
Disallow: */feed*/feed
Disallow: /*/*/feed
Disallow: /comments/
Disallow: /comments/feed
Disallow: /?s=*
Disallow: /*/?s=*\
Disallow: /*/?s=*
Disallow: /?p=*
Disallow: /?p=*&preview=true
Disallow: /?page_id=*&preview=true
Disallow: /attachment/
Disallow: /wp-login.php
Allow: /wp-content/uploads/
Sitemap: https://你的网站地址/sitemap.xml

上面是我重新整理编写的一些大神们的WordPress Robots协议，这里我在“User-agent: *”所有搜索引擎可以抓取网站的下方添加了一条“Allow: *”命令，然后才是我们要禁止收录的一些网站内容，因为我们的我们先应该告诉搜索引擎我们网站可以收录抓取，然后才是要他遵守一些我设置的规则，哪些可以收录，哪些不可以收录。

1：User-agent: * 开始配置：所有搜索引擎
2：Allow: * 允许所有搜索引擎访问*目录(包括子目录)
3：Disallow: /wp-admin/ 禁止所有搜索引擎访问/wp-admin目录
4：Disallow: /wp-content/ 禁止所有搜索引擎访问/wp-content目录
5：Disallow: /wp-includes/ 禁止所有搜索引擎访问/wp-includes目录
6：Disallow: /wp- 禁止所有搜索引擎访问/wp-目录(包括子目录)
7：Disallow: /wp-* 禁止所有搜索引擎访问/wp-*目录(包括子目录)
8：Disallow: /wp-*.php 禁止所有搜索引擎访问根目录下的wp-*.php文件
9：Disallow: /wp-content/plugins 禁止所有搜索引擎访问/wp-content/plugins目录(包括子目录)
10：Disallow: /wp-content/themes 禁止所有搜索引擎访问/wp-content/themes目录(包括子目录)
11：Disallow: /*?connect=* 禁止所有搜索引擎访问/*,参数为connect=*的页面
12：Disallow: /page/ 禁止所有搜索引擎访问/page目录
13：Disallow: /page/* 禁止所有搜索引擎访问/page/*目录(包括子目录)
14：Disallow: /*/*/page/ 禁止所有搜索引擎访问/*/*/page目录
15：Disallow: /page/1欲将沉醉换悲凉，清歌莫断肠。这混乱的尘世，究竟充斥了多少绝望和悲伤。你想去做一个勇敢的男子，为爱，为信仰，轰轰烈烈的奋斗一场。nbsp; 禁止所有搜索引擎访问所有以/page结尾的文件
16：Disallow: /date/ 禁止所有搜索引擎访问/date目录
17：Disallow: /xmlrpc.php 禁止所有搜索引擎访问根目录下的xmlrpc.php文件
18：Disallow: /*/comment-page-* 禁止所有搜索引擎访问/*/comment-page-*目录(包括子目录)
19：Disallow: /*?replytocom=* 禁止所有搜索引擎访问/*,参数为replytocom=*的页面
20：Disallow: /category/*/page/ 禁止所有搜索引擎访问/category/*/page目录
21：Disallow: /tag/*/page/ 禁止所有搜索引擎访问/tag/*/page目录
22：Disallow: /trackback/ 禁止所有搜索引擎访问/trackback目录
23：Disallow: /*/trackback 禁止所有搜索引擎访问/*/trackback目录(包括子目录)
24：Disallow: */trackback 禁止所有搜索引擎访问*/trackback目录(包括子目录)
25：Disallow: /*/*/trackback 禁止所有搜索引擎访问/*/*/trackback目录(包括子目录)
26：Disallow: /feed 禁止所有搜索引擎访问/feed目录(包括子目录)
27：Disallow: /feed/ 禁止所有搜索引擎访问/feed目录
28：Disallow: /*/feed 禁止所有搜索引擎访问/*/feed目录(包括子目录)
29：Disallow: */feed 禁止所有搜索引擎访问*/feed目录(包括子目录)
30：Disallow: */feed*/feed 禁止所有搜索引擎访问*/feed*/feed目录(包括子目录)
31：Disallow: /*/*/feed 禁止所有搜索引擎访问/*/*/feed目录(包括子目录)
32：Disallow: /comments/ 禁止所有搜索引擎访问/comments目录
33：Disallow: /comments/feed 禁止所有搜索引擎访问/comments/feed目录(包括子目录)
34：Disallow: /?s=* 禁止所有搜索引擎访问任何带参数的页面
35：Disallow: /*/?s=*\ 禁止所有搜索引擎访问/*/?s=*目录下任何带参数的页面
36：Disallow: /*/?s=* 禁止所有搜索引擎访问/*目录下任何带参数的页面
37：Disallow: /?p=* 禁止所有搜索引擎访问任何带参数的页面
38：Disallow: /?p=*&preview=true 禁止所有搜索引擎访问任何带参数的页面
39：Disallow: /?page_id=*&preview=true 禁止所有搜索引擎访问任何带参数的页面
40：Disallow: /attachment/ 禁止所有搜索引擎访问/attachment目录
41：Disallow: /wp-login.php 禁止所有搜索引擎访问根目录下的wp-login.php文件
42：Allow: /wp-content/uploads/ 允许所有搜索引擎访问/wp-content/uploads目录
43：Sitemap: https://028.sevenit.cn/sitemap.xml