mahoutを使ってみる(1)

Hadoopのセットアップが終ってある程度使える環境が整いましたので,
ここで,次はmahoutを使ってみることにしました.

まずはインストール.

yum install mahout

以上で完了.かんたん!

ちなみに,Hadoopをインストールした際に入れたclouderaのレポジトリから取ってきた様子.バージョンは0.5の模様.

第3回 Mahoutの環境構築とFP-Growthによるマーケットバスケット分析を参考に,fpgを使ってみることにします.

まずは使用するデータのダウンロードして,いきなり実行

mahout fpg -i /path/gihyo-mahout-fpg-sample.csv -o /path/output/gihyo-mahout-fpg-sample --method mapreduce
Error: JAVA_HOME is not set.

エラーを吐くので,/usr/bin/mahoutに直書き.

-----------
vi bin/mahout

# 上の方の行に、この記述を追加
MAHOUT_JAVA_HOME=/path/jvm
(/path/jvmのところにJVMのパスを入れる.自分の環境では/usr/java/jdk1.8.0だった.)
-----------


これで再度実行すると処理が始まりました.

ちなみにオプションで「--method mapreduce」を指定したが,これはHDFS上で実行するものである.
実行後の出力ファイルはバイナリで書かれているので,ローカルに持ってくるついでにテキストに変換する.

mahout seqdumper -s output/gihyo-mahout-fpg-sample/frequentpatterns/part-r-00000 -o result.txt

ローカルに「result.txt」ができる.
--------
Input Path: output/gihyo-mahout-fpg-sample/frequentpatterns/part-r-00000
Key class: class org.apache.hadoop.io.Text Value Class: class org.apache.mahout.fpm.pfpgrowth.convertors.string.TopKStringPatterns
Key: 1: Value: ([1],113), ([1, 19],4), ([1, 401],3), ([1, 107],3)
Key: 10: Value: ([10],98), ([10, 303],4), ([10, 176],4)
Key: 100: Value: ([100],94)
Key: 1000: Value: ([1000],102), ([1000, 415],3), ([1000, 371],3)
Key: 101: Value: ([101],121), ([101, 905],7), ([101, 163],6), ([90, 101],5), ([101, 45],5), ([101, 356],5), ([101, 137],5), ([63, 101],4), ([101, 984],4), ([101, 934],4), ([101, 861],4), ([101, 844],4), ([101, 668],4), ([101, 633],4), ([101, 564],4), ([101, 452],4), ([101, 419],4), ([101, 411],4), ([101, 397],4), ([101, 360],4), ([101, 347],4), ([101, 331],4), ([101, 290],4), ([101, 257],4), ([101, 230],4), ([101, 197],4), ([841, 101],3), ([827, 101],3), ([77, 101],3), ([74, 101],3), ([731, 101],3), ([699, 101],3), ([319, 101],3), ([273, 101],3), ([122, 101],3), ([117, 101],3), ([104, 101],3), ([101, 995],3), ([101, 964],3), ([101, 955],3), ([101, 911],3), ([101, 902],3), ([101, 878],3), ([101, 862],3), ([101, 847],3), ([101, 845],3), ([101, 746],3), ([101, 730],3), ([101, 651],3), ([101, 644],3)
Key: 102: Value: ([102],103)
Key: 103: Value: ([103],100)

(以下略)
--------

ひとまず,使えたようです.
次は活用に関して考えてみようと思います.

今日はここまで.

コメント(0)

コメントを投稿する