アクセスログ解析をするのにHadoop streamingをつかってといろいろ試しています。
Hadoopのセットアップの仕方はググればできてきますし、
本に書いてあることまんまでいけるので割愛します。
何冊かHadoop関連の本をよんでみて、
はじめて読むときに読みやすいのはこれかなと思います。
最近だと改訂版のHadoop徹底入門もよかったです。
Hadoop徹底入門 第2版 オープンソース分散処理環境の構築 新品価格 |
でもはじめは上記のHadoopファーストガイドが個人的にはわかりやすかったです。
いろいろ本で勉強をしてみてHadoop streamingがアクセスログ解析には良さそう?と思い必要なプログラムを書いてみました。
やりたかったのはアクセスログからリファラーとリンク先を取り出したいだけ。
正規表現で必要な部分をぶっこ抜くだけのプログラムです。
ちなみにrubyの正規表現についてわかりやすくまとまったサイトは下記です。
あんまりないのでほんと参考になりました〜
http://d.hatena.ne.jp/ntaku/20080424/1209026378
ためしに書いてみて解析はできそうだなーと感じてるんですが、
それよりもどういった仮説があって、そのためにどういったデータ解析をする必要があるのか考えるのが先だなと。。
つぎはそこについて考えていきます〜