« Thunderbird 1.0 日本語版 | トップページ | ことわざ »

2005/01/04

protectorモジュールの成果

protector2.2xを使用しての実績を一度まとめておきます。

・12/16頃よりをprotector2.2xを使用(その後、随時バージョンアップ)

【設定】
・デフォルトよりもやや緩やかな設定。
・但し、「悪意あるクローラー」に対しては、「拒否IP登録」

【実績】 (12/16~1/4 (20日間))

 ・CRAWLER 31件 =>「拒否IP登録」
 ・他なし

【CRAWLER 31件の内訳】
約23件は、Agentは偽装してるが、振る舞いを見る限り、同一のソフトで「メアド収集ボット」と思われる。
5~6件は、別の「メアド収集ボット」と思われる。
2~3件は、HTMLをキャッシュ(先読み?収集?)するソフトと思われる。(一般のユーザーと思われるが、振る舞いが激しいので、暫くIP拒否しておく)


以前、「メアド収集ボット」に対しては無防備な掲示板を設置していた事もあるかもしれないが、
ウチのサイトには、平均して1日に1~2件程度のCRAWLERが訪問してるようだ。

これらは、robots.txt meta.robotsを完全に無視してるので、
モジュールによっては恐ろしく深い階層まで追う可能性があるので、可能な限り排除したい。

本来は、セキュリティ目的のモジュールではあるが、
実際には、「悪意あるクローラー」に対しても効果絶大である。
結果として、サーバー負荷の軽減につながればと思います。

モジュール製作者である、GIJOEさんに感謝!!

« Thunderbird 1.0 日本語版 | トップページ | ことわざ »

XOOPS Cube」カテゴリの記事

コメント

詳細なレポートありがとうございます。
こういう情報ってなかなかフィードバックされないから、作者としてもどうしたらよいのか判りづらいんですよ。

問題は、Googlebot などと偽装するクローラーですが、どうしたもんでしょうか。
ある程度以上、ゆるやかな設定にして、それでもひっかかるようなクローラーは、Googlebotではない、と判断するのも手かもしれません。

今、ふと思いつきましたが、robots.txt を見ているかどうかで判断するっていう手は有効そうじゃありません?
どう実装するかはまだまだ難しい部分がありますが。

ちなみに、私のところは、なぜかSQL Injectionがポチポチ来てますね。英語だから、PHP-Nuke系のアタッカーが良く来るのだとは思います。

> 問題は、Googlebot などと偽装するクローラーですが、どうしたもんでしょうか。

今のところ、「悪意あるクローラー」でgooglebotを偽装してるモノは、無いようです。
少なくとも、私のサイトには、来ていないようです。
その判断は、IPアドレスで判断出来ますが、それも変わる可能性がありますし、いちいちホスト名引くのも無理がありますし、難しいところですよね。


> ある程度以上、ゆるやかな設定にして、それでもひっかかるようなクローラーは、Googlebotではない、と判断するのも手かもしれません。

Googlebotの場合、protectorモジュール側で厳しい設定にしても(Agentのチェックを外して)、まず、引っ掛る事は滅多に無いと思います。

Googlebotに限って言えば、一日で数十M程度、多い時で100M以上のトラフィックがありますが、
複数のIPでクロールしてますので、単体のIPでの激しく集中したアクセスは、滅多に無いようです。

ですので、私の場合、protectorモジュール側でゆるやかな設定にして、それでも引っ掛るクローラーで、尚且つ、登録されたAgentで無い場合は、即IP拒否、という方法にしています。


> 今、ふと思いつきましたが、robots.txt を見ているかどうかで判断するっていう手は有効そうじゃありません?

そうですね、「検索エンジン系bot」と「悪意あるクローラー」の明らかな違いは、
robots.txtを見て、そして、内容を判断するかどうか、かと思います。

ただ、robots.txtをいつ見たのか?
その情報を、protector側で、いつまで有効にするのか?
難しいですね。

それも、現状では有効かとも思いますが、将来、robots.txt を見た振りだけする「悪意あるクローラー」も現れるかもしれませんよね。(見るだけで、内容を判断しない)


それと、あと可能性として問題と思われるのは、
XOOPS側でモジュールのキャッシュを効かせた時ですね。
「悪意あるクローラー」が訪問して、0kファイルを返す。
その真っ白をXOOPSがキャッシュする。
キャッシュ有効時間内に、googlbot や一般のユーザーが、そのページを表示する。
「なんじゃこれ!!真っ白じゃん!」みたいなね。
キャッシュの設定を長くしすぎない事などで対応ですね。


また、piCalやamazonモジュールなどは、リンクをたどれば、最悪、無限ループに近いような状態になってしまいますよね。
piCalでしたら、今日を基準に前後何年間だけ表示OKみたいな制御は、もしかしたら可能かもしれませんが、
私の自作amazonモジュールなどは、そういう制御が難しかったりします。
protectorモジュール無しですと、最悪、amazonの全カテゴリページと全商品分のキャッシュファイルを生成する事にもなります・・・(恐ろしい!!)。


余談ですが、「悪意あるクローラー」って、それほど高度な機能を装備したクローラーでは無いと思います。

アプリ自体の開発も、オープンソースのような複数の開発者が大規模に開発してるとは思えません。
おそらく、少数の開発者が販売目的で開発してるものと思われます。

また、そのクローラーを購入した利用者は、短時間で最大限の効果をあげたいですので、短時間でどれだけのページを収集出来るか、というところだと思います。
現状ですと、集中したアクセスをしてIPで弾かれるサイトは少ないと思いますので、
そんなサイトは後回しで、別のサイトをクロールすれば良いと考えてる、と思われます。
こんな感じで、現状では、開発者と利用者の、需要と供給が成り立ってるように思います。

この記事へのコメントは終了しました。

« Thunderbird 1.0 日本語版 | トップページ | ことわざ »

他のアカウント

2019年9月
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30          

Wii

XOOPS

Analytics