mahoutでRandom Forestを使ってみるまでのメモ

windows機に入れたPoderosaからセットアップを進めることにした。
セットアップされるのはESXiに入れたCentOS6.5 x64
sshでログインするためにすくなくともyum install opensshをしておくこと。

以下、rootで作業する

※これだけ見たらなんとなくすっきりする人のためにhistoryを貼っておく
4 rpm -ivh jdk-8u5-linux-i586.rpm
5 ls
6 wget http://archive.cloudera.com/cdh4/one-click-install/redhat/6/i386/cloudera-cdh-4-0.i386.rpm
7 yum --nogpgcheck localinstall cloudera-cdh-4-0.i386.rpm
8 yum ls
9 ls
10 rpm --import http://archive.cloudera.com/cdh4/redhat/6/i386/cdh/RPM-GPG-KEY-cloudera
11 yum install hadoop
12 ls
13 hadoop fs -ls
14 yum install mahout
15 yum install hadoop-conf-pseudo

jdkのインストール
http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
からダウンロードする。
パラメータの変わるURLからダウンロードさせられるので
実機でブラウザ使ってダウンロードしない場合ちょっとコツがいる。

(試した方法)
Chromeでダウンロード初めてすぐキャンセル。

「ダウンロード」からリンクアドレスをコピーしてコンソールに貼り付け

wget http://download.oracle.com/otn-pub/java/jdk/8u5-b13/jdk-8u5-linux-i586.rpm?AuthParam=XXXXXXXXXX_YYYYYYYYYYYYYYYYY

ダウンロードが終わったらファイル名がjdk-8u5-linux-i586.rpm?AuthParam=XXXXXXXXXX_YYYYYYYYYYYYYYYYY
となっているのでリネームしておく

rootになって
rpm -ivh jdk-8u5-linux-x64.rpm

cdh4のリポジトリをインストール
yum --nogpgcheck localinstall cloudera-cdh-4-0.x86_64.rpm
rpm --import http://archive.cloudera.com/cdh4/redhat/6/x86_64/cdh/RPM-GPG-KEY-cloudera

yumでhadoopのインストール
yum install hadoop

続いてyumでmahoutのインストール
yum install mahout

hadoop用設定ファイルのインストール

yum install hadoop-conf-pseudo

使う機体の構成
centos-vm01 CentOS 6.5 64ビット版 namenode/datanode
centos-note01 CentOS 6.5 32ビット版 datanode
centos-note02 CentOS 6.5 32ビット版 datanode
centos-note03 CentOS 6.5 32ビット版 datanode

iptables,hostsの設定

/etc/rc.d/init.d/iptables stop
chkconfig iptables off
chkconfig --list iptables

設定ファイルをslaveにばらまく
scp 192.168.11.XXX:/etc/hosts /etc/hosts
scp 192.168.11.XXX:/etc/hosts /etc/hosts
scp 192.168.11.XXX:/etc/hosts /etc/hosts

sudo reboot

[/var/log/hadoop-hdfs/hadoop-hdfs-datanode-vagrant-centos65.vagrantup.com.log]
2014-02-18 16:09:55,500 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for block pool Block pool BP-
862701839-192.168.33.10-1392739729485 (storage id DS-674077449-192.168.33.10-50010-1392578724409) service to localhost/127.0.0.1:8
020
java.io.IOException: Incompatible clusterIDs in /var/lib/hadoop-hdfs/cache/hdfs/dfs/data: namenode clusterID = CID-a578ba1f-9779-4
eff-9b51-a0cd3093acb2; datanode clusterID = CID-26399fe0-9d4c-4690-834e-427d7cd8d36d
NameNode のメタファイルが初期化されるため、NameNode が管理していないデータとなってしまう
DataNode の対象ディレクトリを削除し、DataNode を起動し直せば良い
対象ディレクトリは /etc/hadoop/conf/hdfs-site.xml で確認できる

わけわからなくなったら,必要なデータをローカルに写すなりバックアップとってから力技.
rm -rf /var/lib/hadoop-hdfs/cache/*

このあと各サービスを再起動する.

コメント(0)

コメントを投稿する