2021年7月更新!アクセス拒否するbot一覧!(.htaccess)

パルどう@法人6期目 更新日:2021/07/24
アクセス拒否する bot一覧

ここ最近のbotはひどい

悪質なbotが激増し、もはやアクセスのほとんどはbotという時代。
特にSEOの被リンク調査系の会社が悪質です(海外)。

ということで、botは拒否しておこう。

.htaccessのbot拒否設定

次のコードを.htaccessの一番下に挿入すればだいたいOKです。
※2021年7月24日時点の調査


SetEnvIfNoCase User-Agent "SemrushBot" jogai
SetEnvIfNoCase User-Agent "AhrefsBot" jogai
SetEnvIfNoCase User-Agent "Linguee" jogai
SetEnvIfNoCase User-Agent "proximic" jogai
SetEnvIfNoCase User-Agent "BLEXBot" jogai
SetEnvIfNoCase User-Agent "GrapeshotCrawler" jogai
SetEnvIfNoCase User-Agent "DotBot" jogai
SetEnvIfNoCase User-Agent "CriteoBot" jogai
SetEnvIfNoCase User-Agent "Barkrowler" jogai
SetEnvIfNoCase User-Agent "MicroAdBot" jogai
SetEnvIfNoCase User-Agent "Applebot" jogai
SetEnvIfNoCase User-Agent "linkfluence" jogai
SetEnvIfNoCase User-Agent "Cincraw" jogai
SetEnvIfNoCase User-Agent "ICC-Crawler" jogai
SetEnvIfNoCase User-Agent "Quantcastbot" jogai
SetEnvIfNoCase User-Agent "contxbot" jogai
SetEnvIfNoCase User-Agent "bidswitchbot" jogai
SetEnvIfNoCase User-Agent "SeznamBot" jogai
SetEnvIfNoCase User-Agent "Linespider" jogai
SetEnvIfNoCase User-Agent "Mappy" jogai
SetEnvIfNoCase User-Agent "MJ12bot" jogai
SetEnvIfNoCase User-Agent "MegaIndex" jogai
SetEnvIfNoCase User-Agent "bidswitchbot" jogai
SetEnvIfNoCase User-Agent "SMTBot" jogai
SetEnvIfNoCase User-Agent "ltx71" jogai
SetEnvIfNoCase User-Agent "integralads" jogai
SetEnvIfNoCase User-Agent "jet-bot" jogai
SetEnvIfNoCase User-Agent "trendictionbot" jogai

Deny from env=jogai

現時点ではこれでだいたいOKですが、
botは日に日に増えていくので定期的にアクセスログを調査しよう。

注意点

そのbot会社のサービスから自分のサイトが消える

例えば、「Ahref」なんかは人気の被リンク調査サービスです。
このbotを除外すると自分のサイトからの被リンクは無いことになる。
特に問題ないですが、中には困る人もいると思うのでご留意を、

「MicroAdBot」とかは拒否すると広告配信の問題が出てくる可能性があるので、
気になる人は外しておこう。
一応コピペする前にざっと目を通しておいてください。

問題点

ユーザーエージェントを偽装する悪質なbotも多い。

アクセスログを見ていたらわかりますが、
明らかにbotなのに普通のユーザーエージェントというのが多々あります。
これはもうIPアドレスで防ぐしかないのですが、
当然ながらIPアドレスも分散させてきて簡単にはいかない。

自分の調査の限りでは、100%海外からのアクセスです。
したがって、日本向けのサイトなら海外は全拒否してもいい。
もちろん、Googleやbingは許可しておこう。

IPアドレスで拒否する場合

次のような書き方で.htaccessの一番下に挿入すればだいたいOKです。


deny from 5.9.156.30
deny from 51.
deny from 159.69.
deny from 188.34.
deny from 135.181.

「51.」は前方一致です。
51から始まるIPアドレスは全て拒否します。

上記IPアドレスはbotの偽装率が高いやつです。
だいたいSEOサービス系だと思う。

最後に

ドメイン直下は危険

このブログもそうですが、「https://parudou5.com/」に公開するのは良くないです。
botはドメインで狙ってくるので、ここからクロールが始まってしまいます。
そのため、「https://parudou5.com/aa/」とディレクトリで公開すれば安心安全。
ドメイントップが403エラーだと、botはほとんど来ません。

このようなbotだけでなく、ハッキング目当てのアクセスも多いです。
ワードプレスの特定のファイルを狙ったアクセスは毎日とんでもない数。
これもあるので、ドメイン直下は危険。こだわりなければディレクトリへ。

トップページだけでも日本からのみ許可するなどしてもOK。
そんなところで、bot対策はしっかりやっておこう。

関連記事
管理人について

名前:パルどう
WEBサイトを作り続けて20年以上…
法人6期目。必死に仕事中…