robots.txt屏蔽海外无用蜘蛛，防止大量蜘蛛抓取导致网站崩溃（资源宝博客整理分享）

最新推荐文章于 2026-03-29 02:24:54 发布

原创

最新推荐文章于 2026-03-29 02:24:54 发布 · 3.1k 阅读

标签

#php #ajax

收录于

robots协议是一种用于指示搜索引擎哪些内容可抓取、哪些不可抓取的文本文件。通过在网站根目录下创建robots.txt，您可以屏蔽如MJ12bot、SemrushBot等特定爬虫，避免它们过度抓取导致网站性能下降。示例代码展示了如何针对不同爬虫设置禁止访问的路径，同时提供了一个网站地图链接。

屏蔽海外无用蜘蛛，防止大量蜘蛛抓取导致网站崩溃

robots协议
也叫robots.txt（统一小写）是一种存放于网站根目录下的ASCII编码的文本文件，它通常告诉网络搜索引擎的蜘蛛，此网站中的哪些内容是不应被搜索引擎的蜘蛛获取的，哪些是可以被蜘蛛获取的。因为一些系统中的URL是大小写敏感的，所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的蜘蛛访问子目录时的行为，那么可以将自定的设置合并到根目录下的robots.txt，或者使用robots元数据（Metadata，又称元数据）。
robots协议并不是一个规范，而只是约定俗成的，所以并不能保证网站的隐私。

下面以WP博客做例子：

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-include/
Disallow: /wp-login.php?redirect_to=*
Disallow: /go?_=*
Allow: /wp-admin/admin-ajax.php
User-agent: MJ12bot
Disallow: /
User-agent: YisouSpider
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: SemrushBot-SA
Disallow: /
User-agent: SemrushBot-BA
Disallow: /
User-agent: SemrushBot-SI
Disallow: /
User-agent: SemrushBot-SWA
Disallow: /
User-agent: SemrushBot-CT
Disallow: /
User-agent: SemrushBot-BM
Disallow: /
User-agent: SemrushBot-SEOAB
Disallow: /