Configuration minimale d' Hadoop sur Ubuntu
Je suis en train de me mettre à Hadoop. J' essaye de l'installer via une vm ubuntu. Voici la configuration minimale que j'ai appliqué. Celle-ci est décrite sur le site d'hadoop et sur le site de yahoo
Voici la configuration que j'ai appliqué spécifiquement sur un serveur ubuntu:
Préparatifs
Création d'un utilisateur hadoop-user
$ adduser hadoop-user
Dans le répertoire home de l'utilisateur ( ou ailleurs ), décompresser l'archive Hadoop
Créer les répertoire suivants
$ mkdir -p /hadoop/hadoop-${USER} $ chmod -R 777 /hadoop/
Configuration SSH
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
Configurer la variable d'environnement JAVA_HOME
Configuration Hadoop
Fichier hadoo-env.sh
Renseigner la variable JAVA_HOME
export JAVA_HOME=/usr/jre16
Dans le fichier conf/core-site.xml
Pour information, j'ai spécifié l'adresse IP de ma machine virtuelle 192.168.85.128 dans les fichiers de configuration. Pensez à modifier cette adresse pour l'adapter à votre conifguration
<configuration> <property> <name>fs.default.name</name> <value>hdfs://192.168.85.128:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/hadoop/hadoop-$[user.name}</value> </property> </configuration>
conf/hdfs-site.xml
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>
conf/mapred-site.xml
<configuration> <property> <name>mapred.job.tracker</name> <value>192.168.85.128:9001</value> </property> <property> <name>mapred.child.java.opts</name> <value>-Xmx256m</value> </property> <property> <name>mapred.system.dir</name> <value>/hadoop/mapred/system</value> </property> </configuration>
Formatage de l'espace de stockage hadoop
$ bin/hadoop namenode -format
Démarrage et vérification
Démarrage
lancer la commande suivante :
$ bin/start-all.sh
Vérification
Se connecter via un navigateur sur les sites suivants
Vous pouvez également exécuter le test fourni dans le jar d'exemples
bin/hadoop jar hadoop-examples-1.0.3.jar pi 10 10000
Pour ceux qui ne veulent pas trop se prendre la tête...
Cloudera fournit une vm toute configurée sur son site