屏蔽垃圾蜘蛛:一份实用的 robots.txt 配置分享
有一段时间,我的网站流量异常高,但细查日志后发现,流量并不是来自真实用户,而是各种 垃圾蜘蛛 在爬取页面。 这些蜘蛛不仅占用带宽和服务器资源,对网站没有任何好处,甚至可能影响正常访问体验。最好的办法就是直接屏蔽。
于是,我整理了一份常见垃圾蜘蛛的 robots.txt 配置,现在分享给大家,建议收藏备用。
推荐的 robots.txt 配置
User-agent: AhrefsBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: ZoominfoBot
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: aiHitBot
Disallow: /
User-agent: Mail.RU_Bot
Disallow: /
User-agent: XoviBot
Disallow: /
User-agent: MauiBot
Disallow: /
这些规则能屏蔽哪些爬虫?
| User-agent | 所属公司/项目 | 主要用途 | 被禁止的原因 |
|---|---|---|---|
| AhrefsBot | Ahrefs | 收集网页数据用于 SEO 分析和反链检查 | 高频抓取,消耗服务器资源 |
| MJ12bot | Majestic-12 | 建立链接索引,支持 Majestic 链接分析 | 过度爬取,造成服务器负载 |
| DotBot | DotNetDotCom.org | 为 SEO 工具收集网页数据 | 请求频繁,影响正常访问 |
| SemrushBot | Semrush | SEO 竞争分析、关键词研究 | 占用大量资源 |
| ZoominfoBot | ZoomInfo | 收集企业联系信息和公开数据 | 可能涉及隐私或滥用 |
| BLEXBot | Content ad | 爬取内容用于广告或推荐 | 消耗带宽,可能抓取敏感内容 |
| aiHitBot | aiHit | 收集企业数据库信息 | 爬取频繁,涉及隐私风险 |
| Mail.RU_Bot | Mail.ru | 索引内容供搜索引擎使用 | 爬取策略激进,易造成干扰 |
| XoviBot | Xovi (SEO 工具) | SEO 数据分析 | 高频请求干扰服务 |
| MauiBot | 未明确 | 常见垃圾爬虫 | 对站点无价值,仅消耗资源 |
如何应用这份规则?
- 登录服务器,进入网站根目录。
- 创建或修改
robots.txt文件。 - 粘贴上方规则并保存。
完成后,主流搜索引擎(如 Google、Bing)会遵守该规则,而这些垃圾蜘蛛大多数也会被阻拦。
写在最后
这份配置涵盖了常见的“高频垃圾蜘蛛”。当然,互联网上还有很多不守规矩的爬虫,甚至会直接无视 robots.txt。
如果你有更多建议要屏蔽的 User-agent,欢迎补充