czwartek, 6 stycznia 2011

Mountable HDFS

Od jakiegoś czasu testuje dystrybucje Hadoopa dostarczaną przez firmę Cloudera. Posiada ona kilka fajnych udogodnień, takich jak możliwość instalacji za pomocą apt-get, łatwe zarządzanie konfiguracją, nowe bardziej estetyczne GUI wraz z obsługą Hive, oraz interfejs FUSE dla HDFS'a, który umożliwia zamontowanie go jako lokalny system plików. Dzięki temu możemy używać ulubionych narzędzi np. gnome-commandera, oraz pisać programy operujące na rozproszonym systemie plików w identyczny sposób jak na tradycyjnym systemie.
Jeśli do tej pory nie instalowaliśmy żadnych pakietów z dystrybucji Cloudery musimy dodać odpowiednie repozytoria. Tworzymy plik
/etc/apt/sources.list.d/cloudera.list
dodajemy:
deb http://archive.cloudera.com/debian lucid-cdh3 contrib
deb-src http://archive.cloudera.com/debian lucid-cdh3 contrib
 

Instalujemy Hadoop FUSE:
sudo apt-get install hadoop-0.20-fuse
Tworzymy katalog do zamontowania:
mkdir -p hdfs
Montujemy HDFS'a:
hadoop-fuse-dfs dfs://<name_node_hostname>:<namenode_port> hdfs -d
Jeśli wszystko działa jak należy, dodajemy wpisy w pliku /etc/fstab 
hadoop-fuse-dfs dfs://<name_node_hostname>:<namenode_port> hdfs fuse 
allow_other,usetrash,rw 2 0
 
Jeśli używamy Hadoopa od Cloudery nic więcej nie musimy konfigurować, w przeciwnym wypadku w pliku  
/usr/bin/hadoop-fuse-dfs
ustawiamy HADOOP_HOME.