2023年1月更新!アクセス拒否するbot一覧!(.htaccess)
ここ最近のbotはひどい
悪質なbotが激増し、もはやアクセスのほとんどはbotという時代。
特にSEOの被リンク調査系の会社が悪質です(海外)。
ということで、botは拒否しておこう。
.htaccessのbot拒否設定
次のコードを.htaccessの一番下に挿入すればだいたいOKです。
※2023年1月7日時点の調査
SetEnvIfNoCase User-Agent "SemrushBot" jogai
SetEnvIfNoCase User-Agent "AhrefsBot" jogai
SetEnvIfNoCase User-Agent "Linguee" jogai
SetEnvIfNoCase User-Agent "proximic" jogai
SetEnvIfNoCase User-Agent "BLEXBot" jogai
SetEnvIfNoCase User-Agent "GrapeshotCrawler" jogai
SetEnvIfNoCase User-Agent "DotBot" jogai
SetEnvIfNoCase User-Agent "CriteoBot" jogai
SetEnvIfNoCase User-Agent "Barkrowler" jogai
SetEnvIfNoCase User-Agent "MicroAdBot" jogai
SetEnvIfNoCase User-Agent "linkfluence" jogai
SetEnvIfNoCase User-Agent "Cincraw" jogai
SetEnvIfNoCase User-Agent "ICC-Crawler" jogai
SetEnvIfNoCase User-Agent "Quantcastbot" jogai
SetEnvIfNoCase User-Agent "contxbot" jogai
SetEnvIfNoCase User-Agent "bidswitchbot" jogai
SetEnvIfNoCase User-Agent "SeznamBot" jogai
SetEnvIfNoCase User-Agent "Linespider" jogai
SetEnvIfNoCase User-Agent "Mappy" jogai
SetEnvIfNoCase User-Agent "MJ12bot" jogai
SetEnvIfNoCase User-Agent "MegaIndex" jogai
SetEnvIfNoCase User-Agent "bidswitchbot" jogai
SetEnvIfNoCase User-Agent "SMTBot" jogai
SetEnvIfNoCase User-Agent "ltx71" jogai
SetEnvIfNoCase User-Agent "integralads" jogai
SetEnvIfNoCase User-Agent "jet-bot" jogai
SetEnvIfNoCase User-Agent "trendictionbot" jogai
SetEnvIfNoCase User-Agent "DataForSeoBot" jogai
deny from env=jogai
現時点ではこれでだいたいOKですが、
botは日に日に増えていくので定期的にアクセスログを調査しよう。
注意点
そのbot会社のサービスから自分のサイトが消える
例えば、「Ahref」なんかは人気の被リンク調査サービスです。
このbotを除外すると自分のサイトからの被リンクは無いことになる。
特に問題ないですが、中には困る人もいると思うのでご留意を、
「MicroAdBot」とかは拒否すると広告配信の問題が出てくる可能性があるので、
気になる人は外しておこう。
一応コピペする前にざっと目を通しておいてください。
問題点
ユーザーエージェントを偽装する悪質なbotも多い。
アクセスログを見ていたらわかりますが、
明らかにbotなのに普通のユーザーエージェントというのが多々あります。
これはもうIPアドレスで防ぐしかないのですが、
当然ながらIPアドレスも分散させてきて簡単にはいかない。
自分の調査の限りでは、100%海外からのアクセスです。
したがって、日本向けのサイトなら海外は全拒否してもいい。
もちろん、Googleやbingは許可しておこう。
IPアドレスで拒否する場合
次のような書き方で.htaccessの一番下に挿入すればだいたいOKです。
deny from 5.9.156.30
deny from 51.
deny from 159.69.
deny from 188.34.
deny from 135.181.
「51.」は前方一致です。
51から始まるIPアドレスは全て拒否します。
上記IPアドレスはbotの偽装率が高いやつです。
だいたいSEOサービス系だと思う。
<関連>
・ルールを守らない悪質な偽装botのIPアドレス一覧 #ブラックリスト #スパム
最後に
ドメイン直下は危険
このブログもそうですが、「https://parudou5.com/」に公開するのは良くないです。
botはドメインで狙ってくるので、ここからクロールが始まってしまいます。
そのため、「https://parudou5.com/aa/」とディレクトリで公開すれば安心安全。
ドメイントップが403エラーだと、botはほとんど来ません。
このようなbotだけでなく、ハッキング目当てのアクセスも多いです。
ワードプレスの特定のファイルを狙ったアクセスは毎日とんでもない数。
これもあるので、ドメイン直下は危険。こだわりなければディレクトリへ。
トップページだけでも日本からのみ許可するなどしてもOK。
そんなところで、bot対策はしっかりやっておこう。