最近发现WordPress程序网站下垃圾蜘蛛实在太多,直接把服务器抓趴窝了,网上找了一通后,发现有几个方法可以屏蔽掉。
恶意蜘蛛定义
我把恶意蜘蛛定义为对网站的品牌和流量没有任何实质性的帮助,并且给网站性能带来一定损耗的蜘蛛。这种蜘蛛会频繁抓取网站内容,并且利用内容做一些数据分析来达到他们的商业目的。
通过分析网站日志,搜集资料,我得出了下面的一些恶意蜘蛛。下面给出列表并说明这些蜘蛛的用途。
恶意蜘蛛列表
- SemrushBot,这是semrush下面的一个蜘蛛,是一家做搜索引擎优化的公司,因此它抓取网页的目的就很明显了。这种蜘蛛对网站没有任何用处,好在它还遵循robots协议,因此可以直接在robots屏蔽。
- DotBot, 这是moz旗下的,作用是提供seo服务的蜘蛛,但是对我们并没有什么用处。好在遵循robots协议,可以使用robots屏蔽
- AhrefsBot, 这是ahrefs旗下的蜘蛛,作用是提供seo服务,对我们没有任何用处,遵循robots协议。
- MJ12bot,这是英国的一个搜索引擎蜘蛛,但是对中文站站点就没有用处了,遵循robots协议。
- MauiBot,这个不太清楚是什么,但是有时候很疯狂,好在遵循robots协议。
- MegaIndex.ru,这是一个提供反向链接查询的网站的蜘蛛,因此它爬网站主要是分析链接,并没有什么作用。遵循robots协议。
- BLEXBot, 这个是webmeup下面的蜘蛛,作用是收集网站上面的链接,对我们来说并没有用处。遵循robots协议
- bots
- Nimbostratus-Bot
- crawler
- Bot
- Applebot
- YandexBot
- web spider
- YisouSpider 听说这个最垃圾,不遵循robots协议,需直接封禁IP。
红色部分未经验证是否遵循robots协议。
屏蔽方法
1、修改robots协议
对于遵循robots协议的蜘蛛,可以直接在robots禁止。上面常见的无用蜘蛛禁止方法如下,将下面的内容加入到网站根目录下面的robots.txt就可以了。
User-agent: SemrushBot Disallow: / User-agent: DotBot Disallow: / User-agent: MegaIndex.ru Disallow: / User-agent: MauiBot Disallow: / User-agent: AhrefsBot Disallow: / User-agent: MJ12bot Disallow: / User-agent: BLEXBot Disallow: /
对于不尊许robots规则的蜘蛛,目前能够屏蔽的方法就是根据useragent或者ip来禁止了。
2、用WordPress插件:WP-Ban
WP-Ban 插件可以通过 IP、IP段、主机名等来禁止访问你的WordPress站点,并显示提示信息(可以自定义信息),当然了,你也可以将某些IP排除在禁止之外。WP-Ban还会统计他们访问的次数。具体如何使用详见《屏蔽恶意IP 禁止访问站点的WordPress插件:WP-Ban》。
继续阅读
痕风的起点
专注于互联网资讯、中央空调、Windows、wordpress、建站技术、软件应用等相关网络资源的分享。
评论