アクセスログを Visitors で解析する

この記事をdel.cio.usに登録する この記事をはてなブックマークに登録する この記事をGoogleブックマークに登録する この記事をlivedoor clipに登録する

アクセスログを解析するといろいろ気がつくことがありました。

私の使ってるさくらのレンタルサーバでは、 Apache httpdのログ (combined形式) を1年分 毎日残してくれます。

しかし用意されている Webalizer というアクセス解析ソフトではわからないことがあります。 とくに知りたかったのが、404 File Not Found エラーを返しているURLは何なのかということ。

そこで別のアクセスログ解析ソフトを探すと、AWStats というのがよいらしいです。

AWStatsさくらのレンタルサーバ にインストール方法についてさらに調べている途中、 AWStatsより Visitors のほうがいいよ、という情報を得ました。

Visitors

Visitorsは確かにインストール簡単です。

$ wget http://www.hping.org/visitors/visitors-0.7.tar.gz
$ tar zxvf visitors-0.7.tar.gz
$ cd visitors_0.7/
$ make
$ mv visitors ~/bin/

これでインストール終わり。

レンタルサーバのログは、1日ごとに分かれていて、それぞれが gzip圧縮してあるので、 そのままでは Visitors には読めません。

そこで AWStats に入っていた logresolvemerge.pl を使ってログを単一のテキストファイルにまとめます。 AWStatsもインストールしようとしていたのでちょうどよかった。 このスクリプトは単体で使えるので、AWStatsをインストールしなくても使えます。

$ logresolvemerge.pl -dnslookup ~/log/access_log_200801* > 200801.log

ここで -dnslookup オプションをつけると、たとえばログに 74.6.23.212 というIPアドレスしか残ってない場合でも、 そのIPアドレスに対応する lj511774.crawl.yahoo.net というドメインに置き換えてくれますが、そのぶん時間がかかります。 これによって閲覧者がロボットであるかどうかや、閲覧者の使っているプロバイダーとかがわかるわけですが、Visitorsではドメイン末尾 (jp/com/net/...) しか集計しないので、私のページは日本語しか提供してなくて閲覧者がほとんど日本(jp)のため、ドメインに変換する意味はないです。 次からは -dnslookup をつけなくしよう。

次に Visitorsで そのアクセスログを解析して、HTMLに出力します。

$ visitors -A 200801.log > ~/www/log_200801.html

これですぐに解析してくれます。早い!

アクセスログで気がついたこと

404エラーを起こしているファイル一覧を見ることができました。 そのおかげで以下の対策がとれました。

感想

ただし Visitors では、検索エンジンのクローラを外した、リアル人間のアクセスのみを集計する方法がないかも? AWStatsならその集計ができるので、AWStatsも入れたほうがいいかも。

googleで検索: [visitors ログ]


Web制作

この記事をdel.cio.usに登録する この記事をはてなブックマークに登録する この記事をGoogleブックマークに登録する この記事をlivedoor clipに登録する