WordPress常用Robots.txt规则

软件代码
18年9月7日
编辑

知道君

释放双眼，带上耳机，听听看~！

今天查看网站缓存的时候发现有很多?replytocom=1234之类的链接，原来这是评论相关页面，如果被搜索引擎收录的话会造成页面重复收录。禁止搜索引擎收录比较简单的办法是在Robots.txt里设置规则，Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。在网站根目录Robots.txt里添加如下规则，参考自知更鸟博客。

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /*/comment-page-*
Disallow: /*?replytocom=*
Disallow: /category/*/page/
Disallow: /tag/*/page/
Disallow: /*/trackback
Disallow: /feed
Disallow: /*/feed
Disallow: /comments/feed
Disallow: /?s=*
Disallow: /*/?s=*\
Disallow: /attachment/

下面分别解释一下各项的作用：

1、Disallow: /wp-admin/、Disallow: /wp-content/和Disallow: /wp-includes/

用于告诉搜索引擎不要抓取后台程序文件页面。

2、Disallow: /*/comment-page-*和Disallow: /*?replytocom=*

禁止搜索引擎抓取评论分页等相关链接。

3、Disallow: /category/*/page/和Disallow: /tag/*/page/

禁止搜索引擎抓取收录分类和标签的分页。

4、Disallow: /*/trackback

禁止搜索引擎抓取收录trackback等垃圾信息

5、Disallow: /feed、Disallow: /*/feed和Disallow: /comments/feed

禁止搜索引擎抓取收录feed链接，feed只用于订阅本站，与搜索引擎无关。

6、Disallow: /?s=*和Disallow: /*/?s=*\

禁止搜索引擎抓取站内搜索结果

7、Disallow: /attachment/

禁止搜索引擎抓取附件页面，比如毫无意义的图片附件页面。

上面只是些基本的写法，当然还有很多，不过够用了。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

版权申明：网站字体及图片来源于互联网，如果侵犯了您的权利，请联系我们，我们将尽快改正我们的错误，谢谢您的理解！

{{userData.name}}已认证

WordPress常用Robots.txt规则

百度地图绘制轨迹点

本站全站开启ssl(https)加密访问

成都另起一行广告传媒云聚物流+胖干金火锅年会搭建

装机必备-系统优化与故障修复工具合集 2026

从“维权”到“获刑”，一家知识产权代理公司的疯狂骗局

博客流量低？分享一个WordPress每日简报插件，让你的网站每天自动更新热点新闻！

CodeBuddy 新春活动来袭！注册即送腾讯云资源 + 红包封面 + 限量公仔！

字体插件