VMware vSphere Big Data Extensions 2.3 Manuel utilisateur

Document
Guide de l'interface de ligne de
commande VMware vSphere Big Data
Extensions
vSphere Big Data Extensions 2.3
Ce document prend en charge la version de chacun des produits
r&eacute;pertori&eacute;s, ainsi que toutes les versions publi&eacute;es par la suite
jusqu'au remplacement dudit document par une nouvelle
&eacute;dition. Pour rechercher des &eacute;ditions plus r&eacute;centes de ce
document, rendez-vous sur :
http://www.vmware.com/fr/support/pubs.
FR-001702-00
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Vous trouverez la documentation technique la plus r&eacute;cente sur le site Web de VMware &agrave; l'adresse :
http://www.vmware.com/fr/support/
Le site Web de VMware propose &eacute;galement les derni&egrave;res mises &agrave; jour des produits.
N’h&eacute;sitez pas &agrave; nous transmettre tous vos commentaires concernant cette documentation &agrave; l’adresse suivante :
docfeedback@vmware.com
Copyright &copy; 2013 – 2015 VMware, Inc. Tous droits r&eacute;serv&eacute;s. Copyright et informations sur les marques.
Ce guide est sous licence Creative Commons Attribution-NoDerivs 3.0 United States License
(http://creativecommons.org/licenses/by-nd/3.0/us/legalcode).
VMware, Inc.
3401 Hillview Ave.
Palo Alto, CA 94304
www.vmware.com
2
VMware, Inc.
100-101 Quartier Boieldieu
92042 Paris La D&eacute;fense
France
www.vmware.com/fr
VMware, Inc.
Table des mati&egrave;res
&Agrave; propos de ce guide 7
1 Utilisation du client d'interface de ligne de commande distant Serengeti 9
Acc&eacute;der &agrave; l'interface de ligne de commande Serengeti &agrave; l'aide du client d'interface de ligne de
commande distant 9
Se connecter aux nœuds Hadoop avec le client d'interface de ligne de commande Serengeti 11
2 Gestion des gestionnaires d'applications 13
&Agrave; propos des gestionnaires d'applications 13
Ajouter un gestionnaire d'applications &agrave; l'aide de l'interface de ligne de commande Serengeti 14
Afficher la liste des gestionnaires d'applications &agrave; l'aide de l'interface de ligne de commande
Serengeti 15
Modifier un gestionnaire d'applications &agrave; l'aide de l'interface de ligne de commande Serengeti 15
Afficher les distributions prises en charge pour tous les gestionnaires d'applications &agrave; l'aide de
l'interface de ligne de commande Serengeti 15
Afficher les configurations ou les r&ocirc;les pour le gestionnaire d'applications et la distribution &agrave; l'aide
de l'interface de ligne de commande Serengeti 16
Supprimer un gestionnaire d'applications &agrave; l'aide de l'interface de ligne de commande Serengeti 16
3 Gestion de l'environnement Big Data Extensions &agrave; l'aide de l'interface de ligne
de commande Serengeti 19
&Agrave; propos des gestionnaires d'applications 19
Ajouter un pool de ressources avec l'interface de ligne de commande Serengeti 23
Supprimer un pool de ressources avec l'interface de ligne de commande Serengeti 23
Ajouter une banque de donn&eacute;es avec l'interface de ligne de commande Serengeti 24
Supprimer une banque de donn&eacute;es avec l'interface de ligne de commande Serengeti 24
Ajouter un r&eacute;seau avec l'interface de ligne de commande Serengeti 24
Supprimer un r&eacute;seau avec l'interface de ligne de commande Serengeti 25
Reconfigurer un r&eacute;seau IP statique avec l'interface de ligne de commande Serengeti 25
Reconfigurer le type de DNS &agrave; l'aide de l'interface de ligne de commande Serengeti 26
Augmenter les performances de clonage et l'utilisation des ressources des machines virtuelles. 27
4 G&eacute;rer les utilisateurs et les comptes d'utilisateurs 29
Cr&eacute;er un fichier de configuration du service LDAP avec l'interface de ligne de commande
Serengeti 29
Activer la gestion centralis&eacute;e des utilisateurs &agrave; l'aide de l'interface de ligne de commande Serengeti 31
Cr&eacute;er un cluster avec l'authentification utilisateur LDAP &agrave; l'aide de l'interface de ligne de
commande Serengeti 31
Changer les modes de gestion des utilisateurs &agrave; l'aide de l'interface de ligne de commande
Serengeti 32
Modifier la configuration LDAP &agrave; l'aide de l'interface de ligne de commande Serengeti 33
VMware, Inc.
3
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
5 Cr&eacute;ation de clusters Hadoop et HBase 35
&Agrave; propos des types de d&eacute;ploiement de clusters Hadoop et HBase 37
Configurations des clusters Hadoop par d&eacute;faut pour Serengeti 37
Configurations des clusters HBase par d&eacute;faut pour Serengeti 38
&Agrave; propos de la topologie des clusters 38
&Agrave; propos des clusters HBase 41
&Agrave; propos des clusters MapReduce 49
&Agrave; propos des clusters de calcul de donn&eacute;es 52
&Agrave; propos des clusters personnalis&eacute;s 64
6 Gestion des clusters Hadoop et HBase 73
D&eacute;marrer et arr&ecirc;ter un cluster avec l'interface de ligne de commande Serengeti 74
Agrandir un cluster avec l'interface de ligne de commande Serengeti 74
Mettre &agrave; l'&eacute;chelle le CPU et la RAM avec l'interface de ligne de commande Serengeti 75
Reconfigurer un cluster avec l'interface de ligne de commande Serengeti 75
Supprimer un cluster avec l'interface de ligne de commande Serengeti 78
&Agrave; propos de vSphere High Availability et de vSphere Fault Tolerance 78
Reconfigurer un groupe de nœuds avec l'interface de ligne de commande Serengeti 78
D&eacute;velopper un cluster &agrave; l'aide de l'interface de ligne de commande 78
R&eacute;cup&eacute;rer d'une d&eacute;faillance disque avec le client d'interface de ligne de commande Serengeti
Effectuer la r&eacute;cup&eacute;ration d'une machine virtuelle de nœud de cluster 80
Passer en mode maintenance pour effectuer la sauvegarde et la restauration &agrave; l'aide du client
d'interface de ligne de commande Serengeti 81
80
7 Surveillance de l'environnement Big Data Extensions 83
Afficher la liste des gestionnaires d'applications &agrave; l'aide de l'interface de ligne de commande
Serengeti 83
Afficher les distributions Hadoop disponibles avec l'interface de ligne de commande Serengeti 84
Afficher les distributions prises en charge pour tous les gestionnaires d'applications &agrave; l'aide de
l'interface de ligne de commande Serengeti 84
Afficher les configurations ou les r&ocirc;les pour le gestionnaire d'applications et la distribution &agrave; l'aide
de l'interface de ligne de commande Serengeti 84
Afficher les clusters provisionn&eacute;s avec l'interface de ligne de commande Serengeti 85
Afficher les banques de donn&eacute;es avec l'interface de ligne de commande Serengeti 85
Afficher les r&eacute;seaux avec l'interface de ligne de commande Serengeti 86
Afficher les pools de ressources avec l'interface de ligne de commande Serengeti 86
8 R&eacute;f&eacute;rence de sp&eacute;cification de cluster 87
Conditions requises de fichier de sp&eacute;cification de cluster 87
Conditions requises de la d&eacute;finition de cluster 88
Fichier de sp&eacute;cification de cluster annot&eacute; 88
D&eacute;finitions des attributs de sp&eacute;cification de cluster 91
Attributs Hadoop de la liste blanche et de la liste noire 94
Convertir les fichiers XML Hadoop en Serengeti fichiers JSON 96
9 R&eacute;f&eacute;rence des commandes de l'interface de ligne de commande Serengeti 97
Commandes appmanager 97
4
VMware, Inc.
Table des mati&egrave;res
Commandes cluster 99
Commande connect 106
Commandes datastore 107
Commande disconnect 107
Commande distro list 108
Commandes mgmtvmcfg 108
Commandes network 109
Commandes resourcepool 110
Commandes template 111
Commandes topology 111
Commandes usermgmt 112
Index
VMware, Inc.
115
5
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
6
VMware, Inc.
&Agrave; propos de ce guide
Le Guide de l'interface de ligne de commande vSphere Big Data Extensions de VMware d&eacute;crit comment utiliser
l'interface de ligne de commande Serengeti pour g&eacute;rer les ressources vSphere utilis&eacute;es pour cr&eacute;er les clusters
Hadoop et HBase. Il explique aussi comment cr&eacute;er, g&eacute;rer et surveiller les clusters Hadoop et HBase &agrave; partir
de l'interface de ligne de commande VMware Serengeti™.
Le Guide de l'interface de ligne de commande vSphere Big Data Extensions de VMware d&eacute;crit aussi comment
ex&eacute;cuter les op&eacute;rations Hadoop et HBase avec l'Serengeti CLI, et fournit la sp&eacute;cification de cluster et les
r&eacute;f&eacute;rences des commandes de l'Serengeti CLI.
Public cibl&eacute;
Le guide est destin&eacute; aux administrateurs syst&egrave;me et aux d&eacute;veloppeurs qui veulent utiliser Serengeti pour
d&eacute;ployer et g&eacute;rer des clusters Hadoop. Pour bien utiliser Serengeti, vous devez conna&icirc;tre Hadoop et
&reg;
&reg;
VMware vSphere .
Glossaire VMware Technical Publications
VMware Technical Publications fournit un glossaire des termes qui peuvent &eacute;ventuellement ne pas vous
&ecirc;tre familiers. Pour consulter la d&eacute;finition des termes utilis&eacute;s dans la documentation technique VMware,
visitez le site Web http://www.vmware.com/support/pubs.
VMware, Inc.
7
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
8
VMware, Inc.
1
Utilisation du client d'interface de
ligne de commande distant Serengeti
Le client d'interface de ligne de commande distant Serengeti vous permet d'acc&eacute;der &agrave;
Serengeti Management Server pour d&eacute;ployer, g&eacute;rer et utiliser Hadoop.
Ce chapitre aborde les rubriques suivantes :
n
&laquo; Acc&eacute;der &agrave; l'interface de ligne de commande Serengeti &agrave; l'aide du client d'interface de ligne de
commande distant &raquo;, page 9
n
&laquo; Se connecter aux nœuds Hadoop avec le client d'interface de ligne de commande Serengeti &raquo;,
page 11
Acc&eacute;der &agrave; l'interface de ligne de commande Serengeti &agrave; l'aide du
client d'interface de ligne de commande distant
Vous pouvez acc&eacute;der &agrave; l'interface de ligne de commande (CLI) Serengeti pour effectuer des t&acirc;ches
administratives Serengeti &agrave; l'aide du client d'interface de ligne de commande distant Serengeti.
Pr&eacute;requis
&reg;
n
Utilisez VMware vSphere Web Client pour vous connecter au serveur VMware vCenter Server sur
lequel vous avez d&eacute;ploy&eacute; le vApp Serengeti.
n
V&eacute;rifiez que le d&eacute;ploiement de Serengeti vApp s'est correctement d&eacute;roul&eacute; et que le serveur de gestion
est en cours d'ex&eacute;cution.
n
V&eacute;rifiez que le mot de passe dont vous disposez pour vous connecter &agrave; la Serengeti CLI est exact.
Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
La Serengeti CLI utilise ses informations d'identification vCenter Server.
n
V&eacute;rifiez que l'environnement d'ex&eacute;cution Java (JRE, Java Runtime Environment) est install&eacute; dans votre
environnement et que son emplacement se trouve dans votre variable d'environnement path.
Proc&eacute;dure
1
T&eacute;l&eacute;chargez le package Serengeti CLI &agrave; partir du Serengeti Management Server.
Ouvrez un navigateur Web et naviguez jusqu'&agrave; l'URL suivante :
https://server_ip_address/cli/VMware-Serengeti-CLI.zip
2
T&eacute;l&eacute;chargez le fichier ZIP.
Le nom de fichier est au format VMware-Serengeti-cli-num&eacute;ro_version-num&eacute;ro_build.ZIP.
VMware, Inc.
9
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
3
D&eacute;compressez le fichier t&eacute;l&eacute;charg&eacute;.
Celui-ci inclut les composants suivants.
n
Le fichier JAR serengeti-cli-version_number, qui inclut le Serengeti Remote CLI Client.
n
R&eacute;pertoire samples, qui inclut des exemples de configurations de clusters.
n
Biblioth&egrave;ques dans le r&eacute;pertoire lib.
4
Ouvrez une interface de commande, puis acc&eacute;dez au r&eacute;pertoire dans lequel vous avez d&eacute;compress&eacute; le
package.
5
Acc&eacute;dez au r&eacute;pertoire cli, puis ex&eacute;cutez la commande suivante pour entrer dans l'interface de ligne de
commande Serengeti.
n
Pour les langues autres que le fran&ccedil;ais ou l'allemand, ex&eacute;cutez la commande suivante.
java -jar serengeti-cli-num&eacute;ro_version.jar
n
Pour le fran&ccedil;ais ou l'allemand, qui utilisent l'encodage linguistique de page de code 850 (CP 850)
ex&eacute;cuter l'interface de ligne de commande Serengeti &agrave; partir d'une console de commandes
Windows, ex&eacute;cutez la commande suivante.
java -Dfile.encoding=cp850 -jar serengeti-cli-num&eacute;ro_version.jar
6
Connectez-vous au service Serengeti.
Vous devez ex&eacute;cuter la commande connect host chaque fois que vous commencez une session
d'interface de ligne de commande, puis une nouvelle fois &agrave; l'issue du d&eacute;lai d'expiration de session de
30 minutes. Si vous n'ex&eacute;cutez pas cette commande, vous ne pouvez pas en ex&eacute;cuter d'autres.
a
Ex&eacute;cutez la commande connect.
connect --host xx.xx.xx.xx:8443
b
&Agrave; l'invite, tapez votre nom d'utilisateur, qui peut &ecirc;tre diff&eacute;rent des informations d'identification
que vous utilisez pour vous connecter au Serengeti Management Server.
REMARQUE Si vous ne cr&eacute;ez pas de nom d'utilisateur et de mot de passe pour le
Serengeti Command-Line Interface Client, vous pouvez utiliser les informations d'identification
d'administrateur vCenter Server par d&eacute;faut. Le Serengeti Command-Line Interface Client utilise les
informations d'identification de vCenter Server avec les autorisations de lecture sur le
Serengeti Management Server.
c
&Agrave; l'invite, tapez votre mot de passe.
Une interface de commande s'ouvre, puis l'invite de la Serengeti CLI appara&icirc;t. Vous pouvez utiliser la
commande help pour obtenir de l'aide sur les commandes Serengeti et leur syntaxe.
n
Pour afficher la liste des commandes disponibles, tapez help.
n
Pour obtenir de l'aide sur une commande particuli&egrave;re, ajoutez son nom apr&egrave;s la commande help.
help cluster create
n
10
Appuyez sur Tab ex&eacute;cuter une commande.
VMware, Inc.
Chapitre 1 Utilisation du client d'interface de ligne de commande distant Serengeti
Se connecter aux nœuds Hadoop avec le client d'interface de ligne de
commande Serengeti
Pour r&eacute;soudre les probl&egrave;mes ou ex&eacute;cuter vos scripts d'automatisation de la gestion, connectez-vous aux
nœuds Hadoop master, worker et client via SSH &agrave; partir du Serengeti Management Server &agrave; l'aide des outils
des clients SSH tels que SSH, PDSH, ClusterSSH et Mussh, qui n'exigent pas d'authentification par mot de
passe.
Pour vous connecter aux nœuds de cluster Hadoop via SSH, vous pouvez utiliser une connexion
authentifi&eacute;e par un nom d'utilisateur et un mot de passe. Tous les nœuds d&eacute;ploy&eacute;s sont prot&eacute;g&eacute;s par un mot
de passe soit al&eacute;atoire, soit d&eacute;fini par l'utilisateur, qui a &eacute;t&eacute; attribu&eacute; lors de la cr&eacute;ation du cluster.
Pr&eacute;requis
Utilisez le vSphere Web Client pour vous connecter &agrave; vCenter Server, et v&eacute;rifiez que la machine virtuelle
Serengeti Management Server est en cours d'ex&eacute;cution.
Proc&eacute;dure
1
Cliquez avec le bouton droit sur la machine virtuelle du Serengeti Management Server et s&eacute;lectionnez
Ouvrir la console.
Le mot de passe du Serengeti Management Server s'affiche.
REMARQUE Si le mot de passe dispara&icirc;t de l'&eacute;cran de la console, appuyez sur Ctrl+D pour revenir &agrave;
l'invite de commande.
2
Utilisez vSphere Web Client pour vous connecter au nœud Hadoop.
Le mot de passe de l'utilisateur root appara&icirc;t sur la console de la machine virtuelle dans
vSphere Web Client.
3
Modifiez le mot de passe du nœud Hadoop en ex&eacute;cutant la commande set-password -u.
sudo /opt/serengeti/sbin/set-password -u
VMware, Inc.
11
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
12
VMware, Inc.
Gestion des gestionnaires
d'applications
2
Pour bien g&eacute;rer vos clusters Hadoop, il est essentiel de comprendre comment g&eacute;rer les diff&eacute;rents
gestionnaires d'applications que vous utilisez dans votre environnement Big Data Extensions.
Ce chapitre aborde les rubriques suivantes :
n
&laquo; &Agrave; propos des gestionnaires d'applications &raquo;, page 13
n
&laquo; Ajouter un gestionnaire d'applications &agrave; l'aide de l'interface de ligne de commande Serengeti &raquo;,
page 14
n
&laquo; Afficher la liste des gestionnaires d'applications &agrave; l'aide de l'interface de ligne de commande
Serengeti &raquo;, page 15
n
&laquo; Modifier un gestionnaire d'applications &agrave; l'aide de l'interface de ligne de commande Serengeti &raquo;,
page 15
n
&laquo; Afficher les distributions prises en charge pour tous les gestionnaires d'applications &agrave; l'aide de
l'interface de ligne de commande Serengeti &raquo;, page 15
n
&laquo; Afficher les configurations ou les r&ocirc;les pour le gestionnaire d'applications et la distribution &agrave; l'aide
de l'interface de ligne de commande Serengeti &raquo;, page 16
n
&laquo; Supprimer un gestionnaire d'applications &agrave; l'aide de l'interface de ligne de commande Serengeti &raquo;,
page 16
&Agrave; propos des gestionnaires d'applications
Vous pouvez utiliser Cloudera Manager, Apache Ambari et le gestionnaire d'applications par d&eacute;faut pour
provisionner et g&eacute;rer des clusters avec VMware vSphere Big Data Extensions.
Apr&egrave;s avoir ajout&eacute; un nouveau gestionnaire d'applications Cloudera Manager ou Ambari &agrave;
Big Data Extensions, vous pouvez y rediriger vos t&acirc;ches de gestion logicielle, notamment la surveillance et
la gestion des clusters.
Vous pouvez utiliser un gestionnaire d'applications pour effectuer les t&acirc;ches suivantes :
n
Dresser la liste de toutes les instances de fournisseurs disponibles, des distributions prises en charge et
des configurations ou des r&ocirc;les pour un gestionnaire d'applications et une distribution sp&eacute;cifiques.
n
Cr&eacute;er des clusters.
n
Surveiller et g&eacute;rer des services &agrave; partir de la console du gestionnaire d'applications.
Consultez la documentation de votre gestionnaire d'applications pour identifier les exigences propres aux
outils.
VMware, Inc.
13
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Restrictions
Les restrictions suivantes s'appliquent aux gestionnaires d'applications Cloudera Manager et Ambari :
n
Pour ajouter un gestionnaire d'applications avec HTTPS, utilisez le nom de domaine complet (FQDN)
au lieu de l'URL.
n
Vous ne pouvez pas renommer un cluster cr&eacute;&eacute; avec le gestionnaire d'applications Cloudera Manager ou
Ambari.
n
Vous ne pouvez pas changer les services d'un cluster Big Data &agrave; partir de Big Data Extensions si le
cluster a &eacute;t&eacute; cr&eacute;&eacute; avec le gestionnaire d'applications Ambari ou Cloudera Manager.
n
Pour modifier les services, les configurations ou les deux, vous devez le faire &agrave; partir du gestionnaire
d'applications sur les nœuds.
Si vous installez de nouveaux services, Big Data Extensions les d&eacute;marre et les arr&ecirc;te en m&ecirc;me temps
que les anciens.
n
Si vous utilisez un gestionnaire d'applications pour modifier les services et les configurations de
clusters Big Data, ces modifications ne peuvent pas &ecirc;tre synchronis&eacute;es &agrave; partir de Big Data Extensions.
Les nœuds que vous cr&eacute;ez avec Big Data Extensions ne contiennent pas les nouveaux services ni les
nouvelles configurations.
Ajouter un gestionnaire d'applications &agrave; l'aide de l'interface de ligne
de commande Serengeti
Pour utiliser les gestionnaires d'application Cloudera Manager ou Ambari, vous devez ajouter le
gestionnaire d'applications et ajouter les informations sur le serveur &agrave; Big Data Extensions.
REMARQUE Pour ajouter un gestionnaire d'applications Cloudera Manager ou Ambari avec HTTPS, utilisez
le nom de domaine complet (FQDN) au lieu de l'URL.
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'interface de ligne de commande Serengeti.
2
Ex&eacute;cutez la commande appmanager add.
appmanager add --name application_manager_name --type [ClouderaManager|Ambari]
--url http[s]://server:port
Les noms des gestionnaires d'applications peuvent comporter uniquement des caract&egrave;res
alphanum&eacute;riques ([0-9, a-z, A-Z]) et les caract&egrave;res sp&eacute;ciaux suivants : trait de soulignement, tiret et
espace.
Vous pouvez utiliser la variable description facultative pour inclure une description de l'instance du
gestionnaire d'applications.
3
Entrez &agrave; l'invite votre nom d'utilisateur et votre mot de passe.
4
Si vous avez sp&eacute;cifi&eacute; SSL, entrez &agrave; l'invite le chemin d'acc&egrave;s du certificat SSL.
Suivant
Pour v&eacute;rifier que le gestionnaire d'applications a &eacute;t&eacute; ajout&eacute; avec succ&egrave;s, ex&eacute;cutez la commande appmanager
list.
14
VMware, Inc.
Chapitre 2 Gestion des gestionnaires d'applications
Afficher la liste des gestionnaires d'applications &agrave; l'aide de l'interface
de ligne de commande Serengeti
Vous pouvez utiliser la commande appManager list pour afficher les gestionnaires d'applications qui sont
install&eacute;s sur l'environnement Big Data Extensions.
Pr&eacute;requis
V&eacute;rifiez que vous &ecirc;tes connect&eacute; &agrave; un gestionnaire d'applications.
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'interface de ligne de commande Serengeti.
2
Ex&eacute;cutez la commande appmanager list.
appmanager list
La commande retourne la liste de tous les gestionnaires d'applications install&eacute;s sur l'environnement
Big Data Extensions.
Modifier un gestionnaire d'applications &agrave; l'aide de l'interface de ligne
de commande Serengeti
Vous pouvez modifier les informations d'un gestionnaire d'applications avec la commandeSerengeti CLI :
par exemple, vous pouvez modifier l'adresse IP du serveur du gestionnaire s'il ne s'agit pas d'une adresse IP
statique ou vous pouvez mettre &agrave; niveau le compte de l'administrateur.
Pr&eacute;requis
V&eacute;rifiez que vous avez au moins un gestionnaire d'applications externe install&eacute; sur votre environnement
Big Data Extensions.
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'Serengeti CLI.
2
Ex&eacute;cutez la commande appmanager modify.
appmanager modify --name application_manager_name
--url &lt;http[s]://server:port&gt;
Des param&egrave;tres suppl&eacute;mentaires sont disponibles pour cette commande. Pour plus d'informations sur
cette commande, consultez &laquo; Commande appmanager modify &raquo;, page 98.
Afficher les distributions prises en charge pour tous les gestionnaires
d'applications &agrave; l'aide de l'interface de ligne de commande Serengeti
Les distributions prises en charge sont celles qui le sont par Big Data Extensions. Les distributions
disponibles sont celles qui ont &eacute;t&eacute; ajout&eacute;es &agrave; votre environnement Big Data Extensions. Vous pouvez
afficher la liste des distributions Hadoop qui sont prises en charge dans l'environnement
Big Data Extensions pour d&eacute;terminer si une distribution particuli&egrave;re est disponible pour un gestionnaire
d'applications particulier.
Pr&eacute;requis
V&eacute;rifiez que vous &ecirc;tes connect&eacute; &agrave; un gestionnaire d'applications.
VMware, Inc.
15
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'interface de ligne de commande Serengeti.
2
Ex&eacute;cutez la commande appmanager list.
appmanager list --name application_manager_name [--distros]
Si vous n'incluez pas le param&egrave;tre --name, la commande retourne la liste de toutes les distributions
Hadoop qui sont prises en charge sur chacun des gestionnaires d'applications de l'environnement
Big Data Extensions.
La commande retourne la liste de toutes les distributions qui sont prises en charge pour le gestionnaire
d'applications du nom que vous sp&eacute;cifiez.
Afficher les configurations ou les r&ocirc;les pour le gestionnaire
d'applications et la distribution &agrave; l'aide de l'interface de ligne de
commande Serengeti
Vous pouvez utiliser la commande appManager list pour afficher les r&ocirc;les ou les configurations Hadoop
d'une distribution et d'un gestionnaire d'applications sp&eacute;cifiques.
La liste des configurations inclut ces configurations que vous pouvez utiliser pour configurer le cluster dans
les sp&eacute;cifications de cluster.
La liste des r&ocirc;les contient les r&ocirc;les que vous pouvez utiliser pour cr&eacute;er un cluster. Vous ne devez pas utiliser
de r&ocirc;les non pris en charge pour cr&eacute;er des clusters dans le gestionnaire d'applications.
Pr&eacute;requis
V&eacute;rifiez que vous &ecirc;tes connect&eacute; &agrave; un gestionnaire d'applications.
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'interface de ligne de commande Serengeti.
2
Ex&eacute;cutez la commande appmanager list.
appmanager list --name application_manager_name [--distro distro_name
(--configurations | --roles) ]
La commande retourne une liste des r&ocirc;les ou configurations Hadoop d'une distribution et d'un gestionnaire
d'applications sp&eacute;cifique.
Supprimer un gestionnaire d'applications &agrave; l'aide de l'interface de
ligne de commande Serengeti
Vous pouvez utiliser l'Serengeti CLI pour supprimer un gestionnaire d'applications lorsque vous n'en avez
plus besoin.
Pr&eacute;requis
n
V&eacute;rifiez que vous avez au moins un gestionnaire d'applications externe install&eacute; dans votre
environnement Big Data Extensions.
n
V&eacute;rifiez que le gestionnaire d'applications que vous souhaitez supprimer ne contient aucun cluster.
Sinon, le processus de suppression &eacute;chouera.
Proc&eacute;dure
1
16
Acc&eacute;dez &agrave; l'interface de ligne de commande Serengeti.
VMware, Inc.
Chapitre 2 Gestion des gestionnaires d'applications
2
Ex&eacute;cutez la commande appmanager delete.
appmanager delete
VMware, Inc.
--name application_manager_name
17
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
18
VMware, Inc.
Gestion de l'environnement Big Data
Extensions &agrave; l'aide de l'interface de
ligne de commande Serengeti
3
Vous devez g&eacute;rer votre Big Data Extensions, ce qui inclut de s'assurer que si vous n'avez pas choisi d'ajouter
le pool de ressources, la banque de donn&eacute;es et le r&eacute;seau lorsque vous d&eacute;ployez le vApp Serengeti, vous
ajoutez les ressources vSphere avant de cr&eacute;er un cluster Hadoop ou HBase. Vous devez aussi ajouter des
gestionnaires d'applications suppl&eacute;mentaires, si vous voulez utiliser Ambari ou Cloudera Manager pour
g&eacute;rer vos clusters Hadoop. Vous pouvez supprimer les ressources dont vous n'avez plus besoin.
Ce chapitre aborde les rubriques suivantes :
n
&laquo; &Agrave; propos des gestionnaires d'applications &raquo;, page 19
n
&laquo; Ajouter un pool de ressources avec l'interface de ligne de commande Serengeti &raquo;, page 23
n
&laquo; Supprimer un pool de ressources avec l'interface de ligne de commande Serengeti &raquo;, page 23
n
&laquo; Ajouter une banque de donn&eacute;es avec l'interface de ligne de commande Serengeti &raquo;, page 24
n
&laquo; Supprimer une banque de donn&eacute;es avec l'interface de ligne de commande Serengeti &raquo;, page 24
n
&laquo; Ajouter un r&eacute;seau avec l'interface de ligne de commande Serengeti &raquo;, page 24
n
&laquo; Supprimer un r&eacute;seau avec l'interface de ligne de commande Serengeti &raquo;, page 25
n
&laquo; Reconfigurer un r&eacute;seau IP statique avec l'interface de ligne de commande Serengeti &raquo;, page 25
n
&laquo; Reconfigurer le type de DNS &agrave; l'aide de l'interface de ligne de commande Serengeti &raquo;, page 26
n
&laquo; Augmenter les performances de clonage et l'utilisation des ressources des machines virtuelles. &raquo;,
page 27
&Agrave; propos des gestionnaires d'applications
Vous pouvez utiliser Cloudera Manager, Apache Ambari et le gestionnaire d'applications par d&eacute;faut pour
provisionner et g&eacute;rer des clusters avec VMware vSphere Big Data Extensions.
Apr&egrave;s avoir ajout&eacute; un nouveau gestionnaire d'applications Cloudera Manager ou Ambari &agrave;
Big Data Extensions, vous pouvez y rediriger vos t&acirc;ches de gestion logicielle, notamment la surveillance et
la gestion des clusters.
Vous pouvez utiliser un gestionnaire d'applications pour effectuer les t&acirc;ches suivantes :
n
Dresser la liste de toutes les instances de fournisseurs disponibles, des distributions prises en charge et
des configurations ou des r&ocirc;les pour un gestionnaire d'applications et une distribution sp&eacute;cifiques.
n
Cr&eacute;er des clusters.
n
Surveiller et g&eacute;rer des services &agrave; partir de la console du gestionnaire d'applications.
Consultez la documentation de votre gestionnaire d'applications pour identifier les exigences propres aux
outils.
VMware, Inc.
19
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Restrictions
Les restrictions suivantes s'appliquent aux gestionnaires d'applications Cloudera Manager et Ambari :
n
Pour ajouter un gestionnaire d'applications avec HTTPS, utilisez le nom de domaine complet (FQDN)
au lieu de l'URL.
n
Vous ne pouvez pas renommer un cluster cr&eacute;&eacute; avec le gestionnaire d'applications Cloudera Manager ou
Ambari.
n
Vous ne pouvez pas changer les services d'un cluster Big Data &agrave; partir de Big Data Extensions si le
cluster a &eacute;t&eacute; cr&eacute;&eacute; avec le gestionnaire d'applications Ambari ou Cloudera Manager.
n
Pour modifier les services, les configurations ou les deux, vous devez le faire &agrave; partir du gestionnaire
d'applications sur les nœuds.
Si vous installez de nouveaux services, Big Data Extensions les d&eacute;marre et les arr&ecirc;te en m&ecirc;me temps
que les anciens.
n
Si vous utilisez un gestionnaire d'applications pour modifier les services et les configurations de
clusters Big Data, ces modifications ne peuvent pas &ecirc;tre synchronis&eacute;es &agrave; partir de Big Data Extensions.
Les nœuds que vous cr&eacute;ez avec Big Data Extensions ne contiennent pas les nouveaux services ni les
nouvelles configurations.
Ajouter un gestionnaire d'applications &agrave; l'aide de l'interface de ligne de
commande Serengeti
Pour utiliser les gestionnaires d'application Cloudera Manager ou Ambari, vous devez ajouter le
gestionnaire d'applications et ajouter les informations sur le serveur &agrave; Big Data Extensions.
REMARQUE Pour ajouter un gestionnaire d'applications Cloudera Manager ou Ambari avec HTTPS, utilisez
le nom de domaine complet (FQDN) au lieu de l'URL.
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'interface de ligne de commande Serengeti.
2
Ex&eacute;cutez la commande appmanager add.
appmanager add --name application_manager_name --type [ClouderaManager|Ambari]
--url http[s]://server:port
Les noms des gestionnaires d'applications peuvent comporter uniquement des caract&egrave;res
alphanum&eacute;riques ([0-9, a-z, A-Z]) et les caract&egrave;res sp&eacute;ciaux suivants : trait de soulignement, tiret et
espace.
Vous pouvez utiliser la variable description facultative pour inclure une description de l'instance du
gestionnaire d'applications.
3
Entrez &agrave; l'invite votre nom d'utilisateur et votre mot de passe.
4
Si vous avez sp&eacute;cifi&eacute; SSL, entrez &agrave; l'invite le chemin d'acc&egrave;s du certificat SSL.
Suivant
Pour v&eacute;rifier que le gestionnaire d'applications a &eacute;t&eacute; ajout&eacute; avec succ&egrave;s, ex&eacute;cutez la commande appmanager
list.
20
VMware, Inc.
Chapitre 3 Gestion de l'environnement Big Data Extensions &agrave; l'aide de l'interface de ligne de commande Serengeti
Modifier un gestionnaire d'applications &agrave; l'aide de l'interface de ligne de
commande Serengeti
Vous pouvez modifier les informations d'un gestionnaire d'applications avec la commandeSerengeti CLI :
par exemple, vous pouvez modifier l'adresse IP du serveur du gestionnaire s'il ne s'agit pas d'une adresse IP
statique ou vous pouvez mettre &agrave; niveau le compte de l'administrateur.
Pr&eacute;requis
V&eacute;rifiez que vous avez au moins un gestionnaire d'applications externe install&eacute; sur votre environnement
Big Data Extensions.
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'Serengeti CLI.
2
Ex&eacute;cutez la commande appmanager modify.
appmanager modify --name application_manager_name
--url &lt;http[s]://server:port&gt;
Des param&egrave;tres suppl&eacute;mentaires sont disponibles pour cette commande. Pour plus d'informations sur
cette commande, consultez &laquo; Commande appmanager modify &raquo;, page 98.
Afficher les distributions prises en charge pour tous les gestionnaires
d'applications &agrave; l'aide de l'interface de ligne de commande Serengeti
Les distributions prises en charge sont celles qui le sont par Big Data Extensions. Les distributions
disponibles sont celles qui ont &eacute;t&eacute; ajout&eacute;es &agrave; votre environnement Big Data Extensions. Vous pouvez
afficher la liste des distributions Hadoop qui sont prises en charge dans l'environnement
Big Data Extensions pour d&eacute;terminer si une distribution particuli&egrave;re est disponible pour un gestionnaire
d'applications particulier.
Pr&eacute;requis
V&eacute;rifiez que vous &ecirc;tes connect&eacute; &agrave; un gestionnaire d'applications.
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'interface de ligne de commande Serengeti.
2
Ex&eacute;cutez la commande appmanager list.
appmanager list --name application_manager_name [--distros]
Si vous n'incluez pas le param&egrave;tre --name, la commande retourne la liste de toutes les distributions
Hadoop qui sont prises en charge sur chacun des gestionnaires d'applications de l'environnement
Big Data Extensions.
La commande retourne la liste de toutes les distributions qui sont prises en charge pour le gestionnaire
d'applications du nom que vous sp&eacute;cifiez.
Afficher les configurations ou les r&ocirc;les pour le gestionnaire d'applications et la
distribution &agrave; l'aide de l'interface de ligne de commande Serengeti
Vous pouvez utiliser la commande appManager list pour afficher les r&ocirc;les ou les configurations Hadoop
d'une distribution et d'un gestionnaire d'applications sp&eacute;cifiques.
La liste des configurations inclut ces configurations que vous pouvez utiliser pour configurer le cluster dans
les sp&eacute;cifications de cluster.
VMware, Inc.
21
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
La liste des r&ocirc;les contient les r&ocirc;les que vous pouvez utiliser pour cr&eacute;er un cluster. Vous ne devez pas utiliser
de r&ocirc;les non pris en charge pour cr&eacute;er des clusters dans le gestionnaire d'applications.
Pr&eacute;requis
V&eacute;rifiez que vous &ecirc;tes connect&eacute; &agrave; un gestionnaire d'applications.
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'interface de ligne de commande Serengeti.
2
Ex&eacute;cutez la commande appmanager list.
appmanager list --name application_manager_name [--distro distro_name
(--configurations | --roles) ]
La commande retourne une liste des r&ocirc;les ou configurations Hadoop d'une distribution et d'un gestionnaire
d'applications sp&eacute;cifique.
Afficher la liste des gestionnaires d'applications &agrave; l'aide de l'interface de ligne
de commande Serengeti
Vous pouvez utiliser la commande appManager list pour afficher les gestionnaires d'applications qui sont
install&eacute;s sur l'environnement Big Data Extensions.
Pr&eacute;requis
V&eacute;rifiez que vous &ecirc;tes connect&eacute; &agrave; un gestionnaire d'applications.
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'interface de ligne de commande Serengeti.
2
Ex&eacute;cutez la commande appmanager list.
appmanager list
La commande retourne la liste de tous les gestionnaires d'applications install&eacute;s sur l'environnement
Big Data Extensions.
Supprimer un gestionnaire d'applications &agrave; l'aide de l'interface de ligne de
commande Serengeti
Vous pouvez utiliser l'Serengeti CLI pour supprimer un gestionnaire d'applications lorsque vous n'en avez
plus besoin.
Pr&eacute;requis
n
V&eacute;rifiez que vous avez au moins un gestionnaire d'applications externe install&eacute; dans votre
environnement Big Data Extensions.
n
V&eacute;rifiez que le gestionnaire d'applications que vous souhaitez supprimer ne contient aucun cluster.
Sinon, le processus de suppression &eacute;chouera.
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'interface de ligne de commande Serengeti.
2
Ex&eacute;cutez la commande appmanager delete.
appmanager delete
22
--name application_manager_name
VMware, Inc.
Chapitre 3 Gestion de l'environnement Big Data Extensions &agrave; l'aide de l'interface de ligne de commande Serengeti
Ajouter un pool de ressources avec l'interface de ligne de commande
Serengeti
Vous pouvez ajouter des pools de ressources pour qu'ils puissent &ecirc;tre utilis&eacute;s par les clusters Hadoop. Les
pools de ressources doivent &ecirc;tre situ&eacute;s au niveau sup&eacute;rieur du cluster. Les pools de ressources imbriqu&eacute;s ne
sont pas pris en charge.
Lorsque vous ajoutez un pool de ressources &agrave; Big Data Extensions, il repr&eacute;sente symboliquement le pool de
ressources vSphere r&eacute;el tel qu'il est identifi&eacute; par vCenter Server. Cette repr&eacute;sentation symbolique vous
permet d'utiliser le nom du pool de ressources Big Data Extensions au lieu du chemin d'acc&egrave;s complet du
pool de ressources dans vCenter Server, dans les fichiers de sp&eacute;cification de cluster.
REMARQUE Apr&egrave;s avoir ajout&eacute; un pool de ressources &agrave; Big Data Extensions, ne renommez pas le pool de
ressources dans vSphere. Si vous le renommez, vous ne pourrez pas ex&eacute;cuter d'op&eacute;rations Serengeti sur les
clusters qui utilisent ce pool de ressources.
Proc&eacute;dure
1
Acc&eacute;dez au client d'interface de ligne de commande Serengeti.
2
Ex&eacute;cutez la commande resourcepool add.
Le param&egrave;tre --vcrp est facultatif.
Cet exemple ajoute un pool de ressources Serengeti nomm&eacute; myRP au pool de ressources vSphere rp1
contenu dans le cluster vSphere cluster1.
resourcepool add --name myRP --vccluster cluster1 --vcrp rp1
Supprimer un pool de ressources avec l'interface de ligne de
commande Serengeti
Vous pouvez supprimer de Serengeti les pools de ressources qui ne sont pas utilis&eacute;s par un cluster Hadoop.
Vous supprimez des pools de ressources quand vous n'en avez plus besoin ou si vous voulez que les
clusters Hadoop que vous cr&eacute;ez dans le serveur de gestion Serengeti soient d&eacute;ploy&eacute;s sous un autre pool de
ressources. La suppression d'un pool de ressources supprime sa r&eacute;f&eacute;rence dans vSphere. Le pool de
ressources n'est pas r&eacute;ellement supprim&eacute;.
Proc&eacute;dure
1
Acc&eacute;dez au client d'interface de ligne de commande Serengeti.
2
Ex&eacute;cutez la commande resourcepool delete.
Si la commande &eacute;choue parce que le pool de ressources est r&eacute;f&eacute;renc&eacute; par un cluster Hadoop, vous
pouvez utiliser la commande resourcepool list pour voir quel cluster r&eacute;f&eacute;rence ce pool de ressources.
Cet exemple supprime le pool de ressources nomm&eacute; myRP.
resourcepool delete --name myRP
VMware, Inc.
23
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Ajouter une banque de donn&eacute;es avec l'interface de ligne de
commande Serengeti
Vous pouvez ajouter des banques de donn&eacute;es locales ou partag&eacute;es au serveur Serengeti pour que les clusters
Hadoop puissent y acc&eacute;der.
REMARQUE Apr&egrave;s avoir ajout&eacute; un pool de ressources &agrave; Big Data Extensions, ne renommez pas le pool de
ressources dans vSphere. Si vous le renommez, vous ne pourrez pas ex&eacute;cuter d'op&eacute;rations Serengeti sur les
clusters qui utilisent ce pool de ressources.
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'interface de ligne de commande Serengeti.
2
Ex&eacute;cutez la commande datastore add.
L'exemple ajoute une nouvelle banque de donn&eacute;es de stockage local, nomm&eacute;e myLocalDS. La valeur du
param&egrave;tre --spec, local*, est un caract&egrave;re g&eacute;n&eacute;rique sp&eacute;cifiant un ensemble de banques de donn&eacute;es
vSphere. Toutes les banques de donn&eacute;es vSphere dont le nom commence par &laquo; local &raquo; sont ajout&eacute;es et
g&eacute;r&eacute;es comme un tout par Serengeti.
datastore add --name myLocalDS --spec local* --type LOCAL
Suivant
Apr&egrave;s avoir ajout&eacute; une banque de donn&eacute;es &agrave; Big Data Extensions, ne la renommez pas dans vSphere. Si
vous la renommez, vous ne pourrez pas ex&eacute;cuter d'op&eacute;rations Serengeti sur les clusters qui l'utilisent.
Supprimer une banque de donn&eacute;es avec l'interface de ligne de
commande Serengeti
Vous pouvez supprimer une banque de donn&eacute;es de Serengeti qui n'est r&eacute;f&eacute;renc&eacute;e par aucun cluster
Hadoop. La suppression d'une banque de donn&eacute;es supprime uniquement la r&eacute;f&eacute;rence &agrave; la banque de
donn&eacute;es vCenter Server. La banque de donn&eacute;es elle-m&ecirc;me n'est pas supprim&eacute;e.
Vous supprimez les banques de donn&eacute;es si vous n'en avez plus besoin ou si vous voulez d&eacute;ployer les
clusters Hadoop que vous cr&eacute;ez sur le serveur de gestion Serengeti sous une autre banque de donn&eacute;es.
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'interface de ligne de commande Serengeti.
2
Ex&eacute;cutez la commande datastore delete.
Si la commande &eacute;choue parce que la banque de donn&eacute;es est r&eacute;f&eacute;renc&eacute;e par un cluster Hadoop, vous
pouvez utiliser la commande datastore list pour savoir quel cluster fait r&eacute;f&eacute;rence &agrave; la banque de
donn&eacute;es.
Cet exemple supprime la banque de donn&eacute;es myDS.
datastore delete --name myDS
Ajouter un r&eacute;seau avec l'interface de ligne de commande Serengeti
Ajouter des r&eacute;seaux &agrave; Big Data Extensions permet aux clusters Hadoop d'acc&eacute;der &agrave; leurs adresses IP. Un
r&eacute;seau est &agrave; la fois un groupe de ports et un moyen d'acc&eacute;der &agrave; ce groupe via une adresse IP.
Apr&egrave;s avoir ajout&eacute; un r&eacute;seau &agrave; Big Data Extensions, ne le renommez pas dans vSphere. Si vous le
renommez, vous ne pourrez pas ex&eacute;cuter d'op&eacute;rations Serengeti sur les clusters qui l'utilisent.
24
VMware, Inc.
Chapitre 3 Gestion de l'environnement Big Data Extensions &agrave; l'aide de l'interface de ligne de commande Serengeti
Pr&eacute;requis
Si votre r&eacute;seau utilise des adresses IP statiques, assurez-vous que les adresses ne sont pas occup&eacute;es avant
d'ajouter le r&eacute;seau.
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'Serengeti CLI.
2
Ex&eacute;cutez la commande network add.
Cet exemple ajoute un r&eacute;seau appel&eacute; myNetwork au groupe de ports 10PG vSphere. Les machines
virtuelles utilisant ce r&eacute;seau recourent au protocole DHCP pour obtenir les adresses IP.
network add --name myNetwork --portGroup 10PG --dhcp
Cet exemple ajoute un r&eacute;seau appel&eacute; myNetwork au groupe de ports 10PG vSphere. Les nœuds Hadoop
utilisent les adresses de la plage d'adresses IP 192.168.1.2-100 ; l'adresse IP du serveur DNS est
10.111.90.2, l'adresse de la passerelle est 192.168.1.1 et le masque de sous-r&eacute;seau est 255.255.255.0.
network add --name myNetwork --portGroup 10PG --ip 192.168.1.2-100 --dns 10.111.90.2
--gateway 192.168.1.1 --mask 255.255.255.0
Pour sp&eacute;cifier plusieurs segments d'adresse IP, utilisez diff&eacute;rentes cha&icirc;nes afin d'exprimer la plage
d'adresses IP au format xx.xx.xx.xx-xx[,xx]*.
xx.xx.xx.xx-xx, xx.xx.xx.xx-xx, single_ip, single_ip
Cet exemple ajoute un r&eacute;seau dynamique avec des adresses IP attribu&eacute;es par DHCP et un nom d'h&ocirc;te
significatif.
network add --name ddnsNetwork --dhcp --portGroup pg1 --dnsType DYNAMIC
Supprimer un r&eacute;seau avec l'interface de ligne de commande Serengeti
Vous pouvez supprimer un r&eacute;seau de Serengeti qui n'est r&eacute;f&eacute;renc&eacute; par aucun cluster Hadoop. La
suppression d'un r&eacute;seau non utilis&eacute; lib&egrave;re les adresses IP en vue d'une r&eacute;utilisation.
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'interface de ligne de commande Serengeti.
2
Ex&eacute;cutez la commande network delete.
network delete --name network_name
Si la commande &eacute;choue parce que le r&eacute;seau est r&eacute;f&eacute;renc&eacute; par un cluster Hadoop, vous pouvez utiliser la
commande network list --detail pour savoir quel cluster fait r&eacute;f&eacute;rence au r&eacute;seau.
Reconfigurer un r&eacute;seau IP statique avec l'interface de ligne de
commande Serengeti
Vous pouvez reconfigurer un r&eacute;seau IP statique Serengeti en lui ajoutant des segments d'adresse IP. Il se
peut que vous ayez besoin d'ajouter des segments d'adresse IP de telle sorte qu'il y ait assez de capacit&eacute; pour
le cluster que vous voulez cr&eacute;er.
Si la plage d'adresses IP que vous sp&eacute;cifiez inclut les adresses IP qui sont d&eacute;j&agrave; dans le r&eacute;seau, Serengeti
ignore les adresses dupliqu&eacute;es. Les adresses restantes de la plage sp&eacute;cifi&eacute;e sont ajout&eacute;es au r&eacute;seau. Si le
r&eacute;seau est d&eacute;j&agrave; utilis&eacute; par un cluster, celui-ci peut utiliser les nouvelles adresses IP apr&egrave;s que vous les avez
ajout&eacute;es au r&eacute;seau. Si seule une partie de la plage d'adresses IP est utilis&eacute;e par un cluster, les adresses IP non
employ&eacute;es peuvent &ecirc;tre utilis&eacute;es lorsque vous cr&eacute;ez un nouveau cluster.
VMware, Inc.
25
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Pr&eacute;requis
Si votre r&eacute;seau utilise des adresses IP statiques, assurez-vous que les adresses ne sont pas occup&eacute;es avant
d'ajouter le r&eacute;seau.
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'interface de ligne de commande Serengeti.
2
Ex&eacute;cutez la commande network modify.
Cet exemple ajoute les adresses IP comprises entre 192.168.1.2 et 192.168.1.100 &agrave; un r&eacute;seau nomm&eacute;
myNetwork.
network modify --name myNetwork --addIP 192.168.1.2-100
Reconfigurer le type de DNS &agrave; l'aide de l'interface de ligne de
commande Serengeti
Vous pouvez reconfigurer le type de syst&egrave;me de noms de domaine (DNS) d'un r&eacute;seau, et sp&eacute;cifier que
Big Data Extensions g&eacute;n&egrave;re des noms d'h&ocirc;te significatifs pour les nœuds d'un cluster Hadoop.
Apr&egrave;s avoir ajout&eacute; un r&eacute;seau &agrave; Big Data Extensions, ne le renommez pas dans vSphere. Si vous le
renommez, vous ne pourrez pas ex&eacute;cuter d'op&eacute;rations Serengeti sur les clusters qui l'utilisent.
Vous pouvez sp&eacute;cifier trois options DNS :
Normale
Le serveur DNS fournit la r&eacute;solution FQDN/IP dans les deux sens. Le DNS
inverse correspond au mappage de l'adresse IP au nom de domaine. Il s'agit
du contraire du DNS normal qui mappe les noms de domaine aux
adresses IP. Par d&eacute;faut, le type de DNS est normal.
Dynamique
Dynamic DNS (DDNS ou DynDNS) est une m&eacute;thode qui permet la mise &agrave;
jour automatique d'un nom de serveur du syst&egrave;me DNS (Domain Name
System) avec la configuration DNS active de ses noms d'h&ocirc;te configur&eacute;s,
adresses ou autres informations. Big Data Extensions s'int&egrave;gre &agrave; un serveur
Dynamic DNS de son r&eacute;seau, au travers duquel il fournit des noms d'h&ocirc;te
significatifs aux nœuds d'un cluster Hadoop. Le cluster s'enregistre ensuite
automatiquement aupr&egrave;s du serveur DNS.
Autres
Il n'y a pas de serveur DNS ou le serveur DNS n'offre pas de r&eacute;solution DNS
normale ou de services Dynamic DNS. Dans ce cas, vous devez ajouter un
mappage FQDN/IP pour tous les nœuds du fichier /etc/hosts de chaque
nœud du cluster. Gr&acirc;ce &agrave; ce mappage de noms d'h&ocirc;te vers des adresses IP,
chaque nœud peut contacter un autre nœud du cluster.
Les noms d'h&ocirc;te vous permettent d'identifier les &eacute;l&eacute;ments plus facilement et d'utiliser des services tels que
l'authentification unique, ce qui n&eacute;cessite l'utilisation d'un DNS correctement configur&eacute;.
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'Serengeti CLI.
2
Ex&eacute;cutez la commande network modify.
Vous pouvez sp&eacute;cifier trois types de DNS : NORMAL, DYNAMIC et OTHERS. La valeur par d&eacute;faut est NORMAL.
Dans cet exemple, un r&eacute;seau nomm&eacute; myNetwork est modifi&eacute; de sorte qu'il utilise un type Dynamic DNS.
Les machines virtuelles utilisant ce r&eacute;seau recourront au protocole DHCP pour obtenir les adresses IP.
network modify --name myNetwork --dnsType DYNAMIC
26
VMware, Inc.
Chapitre 3 Gestion de l'environnement Big Data Extensions &agrave; l'aide de l'interface de ligne de commande Serengeti
Augmenter les performances de clonage et l'utilisation des
ressources des machines virtuelles.
Vous pouvez rapidement cloner et d&eacute;ployer des machines virtuelles &agrave; l'aide de Instant Clone, une
fonctionnalit&eacute; de vSphere 6.0.
&Agrave; l'aide de Instant Clone, une machine virtuelle parent est dupliqu&eacute;e, puis une machine virtuelle enfant (ou
un clone instantan&eacute;) est cr&eacute;&eacute;e. La machine virtuelle enfant tire profit du stockage et de la m&eacute;moire de la
machine virtuelle parent, ce qui permet de r&eacute;duire l'utilisation des ressources.
Lorsque vous provisionnez un cluster, Big Data Extensions cr&eacute;e une machine virtuelle parent pour chaque
h&ocirc;te sur lequel un nœud de cluster a &eacute;t&eacute; plac&eacute;. Apr&egrave;s le provisionnement, un nouveau pool de ressources
&eacute;tiquet&eacute; BDE-ParentVMs-$serengeti.uuid-$template.name appara&icirc;t dans vCenter Server. Ce pool de
ressources contient plusieurs machines virtuelles parent. Les nœuds de cluster normaux sont clon&eacute;s
instantan&eacute;ment &agrave; partir de ces machines virtuelles parent. Une fois qu'elles sont cr&eacute;&eacute;es sur les h&ocirc;tes du
cluster, le temps n&eacute;cessaire au provisionnement et &agrave; la mise &agrave; l'&eacute;chelle d'un cluster est consid&eacute;rablement
r&eacute;duit.
Lorsque vous mettez un clone &agrave; l'&eacute;chelle, le type de clone que vous avez sp&eacute;cifi&eacute; lors de la cr&eacute;ation du
cluster continue d'&ecirc;tre utilis&eacute;, quel que soit le type actuel du clone. Par exemple, si vous avez cr&eacute;&eacute; un cluster
&agrave; l'aide de la fonction Instant Clone, puis que vous passez au type Fast Clone dans Big Data Extensions, le
cluster que vous avez provisionn&eacute; &agrave; l'aide d'Instant Clone continuera d'utiliser Instant Clone pour agrandir
le cluster.
Si vous cr&eacute;ez des clusters et que vous souhaitez ult&eacute;rieurement apporter des changements &agrave; la machine
virtuelle de mod&egrave;le utilis&eacute;e pour provisionner ces clusters, vous devez d'abord supprimer toutes les
machines virtuelles parent existantes avant d'utiliser la nouvelle machine virtuelle de mod&egrave;le. Lorsque vous
cr&eacute;ez des clusters &agrave; l'aide du nouveau mod&egrave;le, Big Data Extensions cr&eacute;e de nouvelles machines virtuelles
parent bas&eacute;es sur le nouveau mod&egrave;le.
Pr&eacute;requis
Votre d&eacute;ploiement Big Data Extensions doit utiliser vSphere 6.0 pour b&eacute;n&eacute;ficier d'Instant Clone.
Proc&eacute;dure
1
Connectez-vous &agrave; Serengeti Management Server.
2
Modifiez le fichier /opt/serengeti/conf/serengeti.properties et changez la valeur de
cluster.clone.service=fast.
Le type de clone par d&eacute;faut lorsque vous ex&eacute;cutez vSphere 6.0 est Instant Clone.
cluster.clone.service = instant
3
Pour activer le type Instant Clone, red&eacute;marrez Serengeti Management Server.
sudo /sbin/service tomcat restart
Serengeti Management Server lit le fichier serengeti.properties r&eacute;vis&eacute; et applique la fonction Fast
Clone &agrave; tous les nouveaux clusters que vous cr&eacute;ez.
Suivant
Tous les clusters que vous cr&eacute;ez ensuite utiliseront Instant Clone pour d&eacute;ployer les machines virtuelles.
Reportez-vous &agrave; Chapitre 5, &laquo; Cr&eacute;ation de clusters Hadoop et HBase &raquo;, page 35.
VMware, Inc.
27
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
28
VMware, Inc.
G&eacute;rer les utilisateurs et les comptes
d'utilisateurs
4
Par d&eacute;faut, l'authentification est configur&eacute;e uniquement pour les comptes d'utilisateurs locaux dans
Big Data Extensions. Si vous voulez utiliser LDAP (soit Active Directory soit un r&eacute;pertoire compatible
OpenLDAP) pour authentifier les utilisateurs, vous devez configurer Big Data Extensions pour utiliser votre
service LDAP ou Active Directory.
Ce chapitre aborde les rubriques suivantes :
n
&laquo; Cr&eacute;er un fichier de configuration du service LDAP avec l'interface de ligne de commande
Serengeti &raquo;, page 29
n
&laquo; Activer la gestion centralis&eacute;e des utilisateurs &agrave; l'aide de l'interface de ligne de commande Serengeti &raquo;,
page 31
n
&laquo; Cr&eacute;er un cluster avec l'authentification utilisateur LDAP &agrave; l'aide de l'interface de ligne de commande
Serengeti &raquo;, page 31
n
&laquo; Changer les modes de gestion des utilisateurs &agrave; l'aide de l'interface de ligne de commande
Serengeti &raquo;, page 32
n
&laquo; Modifier la configuration LDAP &agrave; l'aide de l'interface de ligne de commande Serengeti &raquo;, page 33
Cr&eacute;er un fichier de configuration du service LDAP avec l'interface de
ligne de commande Serengeti
Cr&eacute;ez un fichier de configuration qui identifie votre environnement de serveur LDAP ou Active Directory.
Pr&eacute;requis
n
D&eacute;ployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources ad&eacute;quates allou&eacute;es ex&eacute;cuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par d&eacute;faut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'Serengeti CLI.
2
Acc&eacute;dez au r&eacute;pertoire de Serengeti Management Server dans lequel vous souhaitez cr&eacute;er et stocker le
fichier de configuration.
Vous pouvez utiliser le r&eacute;pertoire /opt/serengeti/etc pour stocker votre fichier de configuration.
VMware, Inc.
29
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
3
&Agrave; l'aide d'un &eacute;diteur de texte, cr&eacute;ez un fichier JavaScript Object Notation (JSON) contenant les
param&egrave;tres de configuration de votre service LDAP ou Active Directory.
Le format du fichier de configuration est repr&eacute;sent&eacute; ci-dessous.
{
&quot;type&quot;: &quot;user_mode_type&quot;,
&quot;primaryUrl&quot;: &quot;ldap://AD_LDAP_server_IP_address:network_port&quot;,
&quot;baseUserDn&quot;: &quot;DN_information&quot;,
&quot;baseGroupDn&quot;: &quot;DN_information&quot;,
&quot;userName&quot;: &quot;username&quot;,
&quot;password&quot;: &quot;password&quot;,
&quot;mgmtVMUserGroupDn&quot;:&quot;DN_information&quot;
}
Tableau 4‑1. Informations de connexion LDAP
4
type
Le service d'authentification utilisateur externe &agrave; utiliser (soit AD_AS_LDAP, soit LDAP).
baseUserDn
Indiquez le DN utilisateur de base.
baseGroupDn
Indiquez le DN groupe de base.
primaryUrl
Indiquez l'URL du serveur principal de votre serveur Active Directory ou LDAP.
mgmtVMUserGroupDn
(Facultatif) Sp&eacute;cifiez le DN de base pour rechercher les groupes afin d'acc&eacute;der au
Serengeti Management Server.
userName
Saisissez le nom d'utilisateur du compte d'administrateur Active Directory ou LDAP.
password
Saisissez le mot de passe du compte d'administrateur Active Directory ou LDAP.
Lorsque le fichier est termin&eacute;, enregistrez votre travail.
Exemple : Exemple de fichier de configuration LDAP
L'exemple suivant illustre le fichier de configuration d'un serveur LDAP dans le domaine acme.com.
{
&quot;type&quot;: &quot;LDAP&quot;,
&quot;primaryUrl&quot;: &quot;ldap://acme.com:8888&quot;,
&quot;baseUserDn&quot;: &quot;ou=users,dc=dev,dc=acme,dc=com&quot;,
&quot;baseGroupDn&quot;: &quot;ou=users,dc=dev,dc=acme,dc=com&quot;,
&quot;userName&quot;: &quot;jsmith&quot;,
&quot;password&quot;: &quot;MyPassword&quot;,
&quot;mgmtVMUserGroupDn&quot;:&quot;cn=Administrators,cn=Builtin,dc=dev,dc=acme,dc=com&quot;
}
Suivant
Une fois que vous avez cr&eacute;&eacute; un fichier de configuration LDAP, vous pouvez activer la gestion centralis&eacute;e
des utilisateurs pour votre environnement Big Data Extensions. Reportez-vous &agrave; &laquo; Activer la gestion
centralis&eacute;e des utilisateurs &agrave; l'aide de l'interface de ligne de commande Serengeti &raquo;, page 31.
30
VMware, Inc.
Chapitre 4 G&eacute;rer les utilisateurs et les comptes d'utilisateurs
Activer la gestion centralis&eacute;e des utilisateurs &agrave; l'aide de l'interface de
ligne de commande Serengeti
Vous devez configurer Big Data Extensions de sorte qu'il utilise une source d'identit&eacute; utilisateur externe
avant de pouvoir g&eacute;rer les utilisateurs via votre service LDAP ou Active Directory.
Pr&eacute;requis
n
D&eacute;ployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources ad&eacute;quates allou&eacute;es ex&eacute;cuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par d&eacute;faut, ajoutez une ou plusieurs
distributions
Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
n
Cr&eacute;ez un fichier de configuration identifiant votre environnement LDAP ou Active Directory &agrave; utiliser
avec Big Data Extensions. Reportez-vous &agrave; &laquo; Cr&eacute;er un fichier de configuration du service LDAP avec
l'interface de ligne de commande Serengeti &raquo;, page 29
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'Serengeti CLI.
2
Ex&eacute;cutez la commande usermgmtserver add --cfgfile config_file_path
Cet exemple active la gestion centralis&eacute;e des utilisateurs, en indiquant que les param&egrave;tres de
configuration LDAP se trouvent dans le fichier /opt/serengeti/LDAPConfigFile.cfg.
usermgmtserver add --cfgfile /opt/serengeti/LDAPConfigFile.cfg
3
Ex&eacute;cutez la commande mgmtvmcfg get pour v&eacute;rifier la configuration correcte de votre environnement en
affichant les informations de configuration du service LDAP ou Active Directory.
Le contenu du fichier de la configuration active utilis&eacute; par votre environnement Big Data Extensions
s'affiche sur le terminal.
Suivant
Lorsque vous activez la gestion centralis&eacute;e des utilisateurs, vous pouvez cr&eacute;er des clusters et attribuer des
r&ocirc;les de gestion des utilisateurs &agrave; l'aide des utilisateurs et des groupes d'utilisateurs d&eacute;finis par votre service
LDAP ou Active Directory. Reportez-vous &agrave; &laquo; Cr&eacute;er un cluster avec l'authentification utilisateur LDAP &agrave;
l'aide de l'interface de ligne de commande Serengeti &raquo;, page 31.
Cr&eacute;er un cluster avec l'authentification utilisateur LDAP &agrave; l'aide de
l'interface de ligne de commande Serengeti
Lorsque la gestion centralis&eacute;e des utilisateurs est configur&eacute;e et activ&eacute;e, vous pouvez accorder des privil&egrave;ges
aux utilisateurs et aux groupes d'utilisateurs dans votre service LDAP ou Active Directory pour chaque
cluster Hadoop que vous cr&eacute;ez.
Pour illustrer l'utilisation de la gestion centralis&eacute;e des utilisateurs dans votre environnement
Big Data Extensions, vous pouvez attribuer aux groupes dot&eacute;s de privil&egrave;ges administratifs dans votre
service LDAP ou Active Directory un acc&egrave;s au Serengeti Management Server. Cela permet aux utilisateurs
d'administrer Big Data Extensions et le Serengeti Management Server. Vous pouvez ensuite octroyer &agrave; un
autre groupe d'utilisateurs un acc&egrave;s &agrave; des nœuds de cluster Hadoop pour leur permettre d'ex&eacute;cuter des
t&acirc;ches Hadoop.
VMware, Inc.
31
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Pour acc&eacute;der aux commandes de l'Serengeti CLI et de Serengeti, les utilisateurs doivent prendre l'identit&eacute;
d'utilisateur serengeti apr&egrave;s leur connexion. Par exemple, vous pouvez utiliser la commande su pour
prendre l'identit&eacute; d'utilisateur serengeti. Vous pourrez ensuite acc&eacute;der &agrave; l'Serengeti CLI.
su serengeti
Pr&eacute;requis
n
D&eacute;ployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources ad&eacute;quates allou&eacute;es ex&eacute;cuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par d&eacute;faut, ajoutez une ou plusieurs
distributions
Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
n
Activez la gestion centralis&eacute;e des utilisateurs pour votre d&eacute;ploiement Big Data Extensions. Reportezvous &agrave; &laquo; Activer la gestion centralis&eacute;e des utilisateurs &agrave; l'aide de l'interface de ligne de commande
Serengeti &raquo;, page 31.
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'Serengeti CLI.
2
Ex&eacute;cutez le cluster create command et sp&eacute;cifiez la valeur des param&egrave;tres --adminGroupName et -userGroupName &agrave; l'aide des noms des groupes d'administrateurs et des groupes d'utilisateurs auxquels
vous souhaitez accorder des privil&egrave;ges relatifs au cluster que vous cr&eacute;ez.
cluster create --name cluster_name --type hbase --adminGroupName AdminGroupName -userGroupName UserGroupName
Suivant
Apr&egrave;s avoir d&eacute;ploy&eacute; le cluster Hadoop, vous pouvez y acc&eacute;der &agrave; l'aide de plusieurs m&eacute;thodes. Consultez le
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
Changer les modes de gestion des utilisateurs &agrave; l'aide de l'interface
de ligne de commande Serengeti
Vous pouvez modifier le mode de gestion des utilisateurs de votre environnement Big Data Extensions.
Vous pouvez choisir d'utiliser la gestion des utilisateurs locaux, LDAP ou les deux.
Big Data Extensions vous permet d'authentifier les utilisateurs locaux, ceux g&eacute;r&eacute;s par LDAP ou Active
Directory, ou une combinaison de ces m&eacute;thodes d'authentification.
Tableau 4‑2. Modes d'authentification utilisateur
32
Mode utilisateur
Description
Local
Sp&eacute;cifiez LOCAL pour cr&eacute;er et g&eacute;rer les utilisateurs et les groupes stock&eacute;s localement dans votre
environnement Big Data Extensions. Il s'agit de la solution de gestion des utilisateurs par
d&eacute;faut.
Utilisateur LDAP
Sp&eacute;cifiez LDAP pour cr&eacute;er et g&eacute;rer les utilisateurs et les groupes stock&eacute;s dans la source
d'identit&eacute; de votre entreprise telle qu'Active Directory ou LDAP. Si vous choisissez le mode
utilisateur LDAP, vous devez configurer Big Data Extensions pour qu'il utilise un service
LDAP ou Active Directory (Active Directory en tant que LDAP).
Mode mixte
Sp&eacute;cifiez MIXED pour utiliser une combinaison des utilisateurs locaux et de ceux stock&eacute;s dans
une source d'identit&eacute; externe. Si vous choisissez le mode mixte, vous devez configurer
Big Data Extensions pour qu'il utilise un service LDAP ou Active Directory (Active Directory
en tant que LDAP).
VMware, Inc.
Chapitre 4 G&eacute;rer les utilisateurs et les comptes d'utilisateurs
Pr&eacute;requis
n
D&eacute;ployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources ad&eacute;quates allou&eacute;es ex&eacute;cuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par d&eacute;faut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'Serengeti CLI.
2
Ex&eacute;cutez la commande mgmtvmcfg modify pour sp&eacute;cifier le mode d'authentification utilisateur que vous
souhaitez utiliser.
n
Sp&eacute;cifiez LOCAL pour cr&eacute;er et g&eacute;rer les utilisateurs et les groupes stock&eacute;s localement dans votre
environnement Big Data Extensions. LOCAL est la solution de gestion des utilisateurs par d&eacute;faut
lorsqu'aucun service Active Directory ou LDAP n'est disponible.
mgmtvmcfg modify LOCAL
n
Sp&eacute;cifiez MIXED pour utiliser une combinaison des utilisateurs locaux et de ceux stock&eacute;s dans une
source d'identit&eacute; externe. Si vous choisissez ce mode, vous devez configurer Big Data Extensions
pour qu'il utilise un service LDAP ou Active Directory.
mgmtvmcfg modify MIXED
n
Sp&eacute;cifiez LDAP pour cr&eacute;er et g&eacute;rer les utilisateurs et les groupes stock&eacute;s dans la source d'identit&eacute; de
votre entreprise telle qu'Active Directory en tant que LDAP ou LDAP. Si vous choisissez LDAP,
vous devez configurer Big Data Extensions pour qu'il utilise un service LDAP ou Active Directory.
mgmtvmcfg modify LDAP
Big Data Extensions utilise le mode d'authentification utilisateur que vous avez sp&eacute;cifi&eacute;.
Modifier la configuration LDAP &agrave; l'aide de l'interface de ligne de
commande Serengeti
Vous pouvez modifier vos param&egrave;tres LDAP et rendre ces modifications disponibles dans votre
environnement Big Data Extensions.
Vous pouvez appliquer &agrave; Big Data Extensions les modifications que vous apportez &agrave; vos param&egrave;tres de
configuration LDAP. Cela vous permet de mettre &agrave; jour vos informations du service LDAP.
Pr&eacute;requis
n
D&eacute;ployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources ad&eacute;quates allou&eacute;es ex&eacute;cuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par d&eacute;faut, ajoutez une ou plusieurs
distributions
Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
n
Activez la gestion centralis&eacute;e des utilisateurs pour votre d&eacute;ploiement Big Data Extensions. Reportezvous &agrave; &laquo; Activer la gestion centralis&eacute;e des utilisateurs &agrave; l'aide de l'interface de ligne de commande
Serengeti &raquo;, page 31.
n
Modifiez le fichier de configuration LDAP pour refl&eacute;ter tous les changements que vous souhaitez
apporter &agrave; vos param&egrave;tres de gestion des utilisateurs. Reportez-vous &agrave; &laquo; Cr&eacute;er un fichier de
configuration du service LDAP avec l'interface de ligne de commande Serengeti &raquo;, page 29
VMware, Inc.
33
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'Serengeti CLI.
2
Ex&eacute;cutez la commande usermgmtserver modify --cfgfile config_file_path
usermgmtserver modify --cfgfile config_file_path
Tous les changements que vous avez apport&eacute;s au fichier de configuration LDAP sont appliqu&eacute;s &agrave; votre
environnement Big Data Extensions. Les clusters que vous cr&eacute;ez utiliseront les nouveaux param&egrave;tres LDAP.
Suivant
Vous pouvez cr&eacute;er des clusters et attribuer des r&ocirc;les de gestion des utilisateurs &agrave; l'aide des utilisateurs et des
groupes d'utilisateurs d&eacute;finis par votre service LDAP ou Active Directory. Reportez-vous &agrave; &laquo; Cr&eacute;er un
cluster avec l'authentification utilisateur LDAP &agrave; l'aide de l'interface de ligne de commande Serengeti &raquo;,
page 31.
34
VMware, Inc.
Cr&eacute;ation de clusters Hadoop et
HBase
5
Dans Big Data Extensions, vous pouvez cr&eacute;er et d&eacute;ployer des clusters Hadoop et HBase. Un cluster Big Data
est un type de cluster de calcul con&ccedil;u pour stocker et analyser de grandes quantit&eacute;s de donn&eacute;es non
structur&eacute;es dans un environnement informatique distribu&eacute;.
Restrictions.
n
Lorsque vous cr&eacute;ez un cluster uniquement HBase, vous devez utiliser le gestionnaire d'applications par
d&eacute;faut, car les autres ne prennent pas en charge ce type de cluster.
n
Vous ne pouvez pas renommer un cluster cr&eacute;&eacute; avec le gestionnaire d'applications Cloudera Manager ou
Ambari.
n
La mise hors tension temporaire des h&ocirc;tes provoque l'&eacute;chec des clusters Big Data pendant la cr&eacute;ation
du cluster.
Lorsque vous cr&eacute;ez des clusters Big Data, Big Data Extensions calcule le placement des machines
virtuelles en fonction des ressources disponibles, des meilleures pratiques Hadoop et des strat&eacute;gies de
placement d&eacute;finies par l'utilisateur avant la cr&eacute;ation des machines virtuelles. Lors de ces calculs, si
certains h&ocirc;tes sont mis hors tension ou en veille soit manuellement soit par VMware Distributed Power
Management (VMware DPM), ces h&ocirc;tes ne sont pas consid&eacute;r&eacute;s comme des ressources disponibles par
Big Data Extensions.
Si un h&ocirc;te est mis hors tension ou en veille apr&egrave;s que Big Data Extensions a calcul&eacute; le placement des
machines virtuelles, mais avant leur cr&eacute;ation, la cr&eacute;ation du cluster &eacute;choue tant que vous ne remettez
pas ces h&ocirc;tes sous tension. Les solutions de contournement suivantes peuvent vous aider &agrave; &eacute;viter ce
probl&egrave;me et &agrave; y rem&eacute;dier.
n
D&eacute;sactivez VMware DPM sur les clusters vSphere o&ugrave; vous d&eacute;ployez et ex&eacute;cutez
Big Data Extensions.
n
Mettez les h&ocirc;tes en mode maintenance avant de les mettre hors tension.
n
Si la cr&eacute;ation d'un cluster Big Data &eacute;choue en raison de l'indisponibilit&eacute; temporaire des h&ocirc;tes qui
lui sont attribu&eacute;s, reprenez la cr&eacute;ation du cluster apr&egrave;s avoir mis les h&ocirc;tes sous tension.
Conditions
Les besoins en ressources sont diff&eacute;rents pour les clusters cr&eacute;&eacute;s avec l'interface de ligne de commande de
Serengeti et le plug-in Big Data Extensions pour vSphere Web Client, car les clusters utilisent des mod&egrave;les
par d&eacute;faut diff&eacute;rents. Les clusters par d&eacute;faut cr&eacute;&eacute;s &agrave; l'aide de la Serengeti CLI sont cibl&eacute;s sur les utilisateurs
de Project Serengeti et les applications de validation technique. Ils sont plus petits que les mod&egrave;les de plugin de Big Data Extensions, qui sont cibl&eacute;s sur des d&eacute;ploiements de plus grande envergure &agrave; usage
commercial.
VMware, Inc.
35
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Certaines configurations de d&eacute;ploiement n&eacute;cessitent plus de ressources que d'autres. Par exemple, si vous
cr&eacute;ez un cluster Greenplum HD 1.2, vous ne pouvez pas utiliser la machine virtuelle de petite taille. Si vous
cr&eacute;ez un cluster MapR ou Greenplum HD par d&eacute;faut &agrave; l'aide de la Serengeti CLI, il est recommand&eacute; de
disposer d'au moins 550 Go de stockage et de 55 Go de m&eacute;moire. Pour les autres distributions Hadoop, il est
recommand&eacute; de disposer d'au moins 350 Go de stockage et de 35 Go de m&eacute;moire.
AVERTISSEMENT Lorsque vous cr&eacute;ez un cluster avec Big Data Extensions, Big Data Extensions d&eacute;sactive la
migration automatique des machines virtuelles sur le cluster. Cela emp&ecirc;che la migration automatique des
machines virtuelles par vSphere, mais ne vous emp&ecirc;che pas de d&eacute;placer accidentellement les nœuds du
cluster vers d'autres h&ocirc;tes avec l'interface utilisateur de vCenter Server. N'utilisez pas l'interface utilisateur
de vCenter Server pour migrer des clusters. L'utilisation de ces fonctions de gestion en dehors de
l'environnement Big Data Extensions peut vous emp&ecirc;cher d'effectuer certaines op&eacute;rations de Big Data
Extensions telles que la r&eacute;cup&eacute;ration de d&eacute;faillances de disque.
Les mots de passe doivent contenir 8 &agrave; 20 caract&egrave;res, utiliser uniquement des caract&egrave;res ASCII inf&eacute;rieurs
visibles (pas d'espaces) et comporter au moins une lettre majuscule (A - Z), une lettre minuscule (a - z), un
chiffre (0 - 9) et l'un des caract&egrave;res sp&eacute;ciaux suivants : _, @, #, $, %, ^, &amp;, *
Ce chapitre aborde les rubriques suivantes :
36
n
&laquo; &Agrave; propos des types de d&eacute;ploiement de clusters Hadoop et HBase &raquo;, page 37
n
&laquo; Configurations des clusters Hadoop par d&eacute;faut pour Serengeti &raquo;, page 37
n
&laquo; Configurations des clusters HBase par d&eacute;faut pour Serengeti &raquo;, page 38
n
&laquo; &Agrave; propos de la topologie des clusters &raquo;, page 38
n
&laquo; &Agrave; propos des clusters HBase &raquo;, page 41
n
&laquo; &Agrave; propos des clusters MapReduce &raquo;, page 49
n
&laquo; &Agrave; propos des clusters de calcul de donn&eacute;es &raquo;, page 52
n
&laquo; &Agrave; propos des clusters personnalis&eacute;s &raquo;, page 64
VMware, Inc.
Chapitre 5 Cr&eacute;ation de clusters Hadoop et HBase
&Agrave; propos des types de d&eacute;ploiement de clusters Hadoop et HBase
Avec Big Data Extensions, vous pouvez cr&eacute;er et utiliser plusieurs types de clusters Big Data.
Cluster Hadoop de base
D&eacute;ploiement Hadoop simple pour les projets de validation technique et
d'autres t&acirc;ches de traitement de donn&eacute;es &agrave; petite &eacute;chelle. Le cluster Hadoop
de base contient le HDFS et l'infrastructure MapReduce. L'infrastructure
MapReduce traite les probl&egrave;mes en parall&egrave;le sur d'&eacute;normes jeux de donn&eacute;es
dans le HDFS.
Cluster HBase
Il s'ex&eacute;cute par-dessus HDFS et offre une solution de tol&eacute;rance aux pannes
pour stocker de grandes quantit&eacute;s de donn&eacute;es &eacute;parses.
Cluster de s&eacute;paration
de donn&eacute;es et de calcul
S&eacute;pare les nœuds de donn&eacute;es et de calcul ou les clusters qui contiennent des
nœuds de calcul uniquement. Dans ce type de cluster, le nœud de donn&eacute;es et
le nœud de calcul ne sont pas sur la m&ecirc;me machine virtuelle.
Cluster de calcul
uniquement
Vous pouvez cr&eacute;er un cluster qui contient uniquement des nœuds de calcul,
par exemple des nœuds JobTracker, TaskTracker, ResourceManager et
NodeManager, mais pas des nœuds NameNode ni DataNode. Un cluster de
calcul uniquement sert &agrave; ex&eacute;cuter des t&acirc;ches MapReduce sur un cluster
HDFS externe.
Cluster de calcul de
travailleurs uniquement
Contient uniquement des nœuds worker, par exemple des nœuds
TaskTracker et NodeManager, mais pas des nœuds NameNode ni
DataNode. Un cluster de calcul de travailleurs uniquement sert &agrave; ajouter des
nœuds de calcul worker &agrave; un cluster Hadoop existant.
Cluster uniquement
HBase
Contient des nœuds HBase Master, HBase RegionServer et Zookeeper, mais
pas des nœuds NameNodes ni DataNodes. Plusieurs clusters HBase
uniquement peuvent utiliser le m&ecirc;me cluster HDFS externe.
Cluster personnalis&eacute;
Utilise un fichier de sp&eacute;cification de cluster pour cr&eacute;er des clusters &agrave; l'aide de
la m&ecirc;me configuration que celle des clusters pr&eacute;c&eacute;demment cr&eacute;&eacute;s. Vous
pouvez modifier le fichier de sp&eacute;cification de cluster pour personnaliser la
configuration du cluster.
Configurations des clusters Hadoop par d&eacute;faut pour Serengeti
Pour les d&eacute;ploiements Hadoop de base, tels que les projets de validation technique, vous pouvez utiliser la
configuration de cluster Hadoop par d&eacute;faut pour Serengeti dans le cas des clusters cr&eacute;&eacute;s avec l'interface de
ligne de commande.
Le d&eacute;ploiement du cluster obtenu se compose des machines virtuelles et nœuds suivants :
n
Une machine virtuelle de nœud master avec les services NameNode et JobTracker.
n
Trois machines virtuelles de nœud worker, chacune avec les services DataNode et TaskTracker.
n
Une machine virtuelle de nœud client contenant l'environnement client Hadoop : le shell client
Hadoop, Pig et Hive.
VMware, Inc.
37
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Distributions Hadoop prenant en charge MapReduce v1 et MapReduce v2
(YARN)
Si vous utilisez les distributions Hadoop Cloudera CDH4 ou CDH5, qui prennent en charge &agrave; la fois
MapReduce v1 et MapReduce v2 (YARN), les configurations de cluster Hadoop par d&eacute;faut sont diff&eacute;rentes.
La configuration de cluster Hadoop par d&eacute;faut pour CDH4 est un cluster MapReduce v1. La configuration
de cluster Hadoop par d&eacute;faut pour CDH5 est un cluster MapReduce v2. Toutes les autres distributions
prennent en charge soit MapReduce v1 soit MapReduce v2 (YARN), mais pas les deux.
Configurations des clusters HBase par d&eacute;faut pour Serengeti
HBase est une base de donn&eacute;es distribu&eacute;e en colonnes open source qui utilise MapReduce et HDFS pour
g&eacute;rer les donn&eacute;es. Vous pouvez utiliser HBase pour cr&eacute;er des applications de table volumineuses.
Pour ex&eacute;cuter les t&acirc;ches HBase MapReduce, configurez le cluster HBase de fa&ccedil;on &agrave; inclure les nœuds
JobTracker ou TaskTracker. Lorsque vous cr&eacute;ez un cluster HBase avec l'interface de ligne de commande,
conform&eacute;ment au mod&egrave;le Serengeti HBase par d&eacute;faut, le cluster obtenu se compose des nœuds suivants :
n
Un nœud master, qui ex&eacute;cute les services NameNode et HBaseMaster.
n
Trois nœuds zookeeper, chacun ex&eacute;cutant le service ZooKeeper.
n
Trois nœuds de donn&eacute;es, chacun ex&eacute;cutant les services DataNode et HBase Regionserver.
n
Un nœud client, &agrave; partir duquel vous pouvez ex&eacute;cuter les t&acirc;ches Hadoop ou HBase.
Le cluster HBase par d&eacute;faut d&eacute;ploy&eacute; par Serengeti ne contient pas de d&eacute;mons Hadoop JobTracker ou
Hadoop TaskTracker. Pour ex&eacute;cuter une t&acirc;che HBase MapReduce, d&eacute;ployez un cluster HBase personnalis&eacute;
non par d&eacute;faut.
&Agrave; propos de la topologie des clusters
Vous pouvez am&eacute;liorer l'&eacute;quilibrage de la charge de travail entre vos nœuds de cluster et accro&icirc;tre les
performances et le d&eacute;bit en sp&eacute;cifiant comment les machines virtuelles Hadoop sont plac&eacute;es, &agrave; l'aide de la
reconnaissance de la topologie. Par exemple, vous pouvez avoir des nœuds de donn&eacute;es et des nœuds de
calcul distincts, et am&eacute;liorer les performances et le d&eacute;bit en pla&ccedil;ant les nœuds sur le m&ecirc;me ensemble d'h&ocirc;tes
physiques.
Pour optimiser les performances de votre cluster Big Data, configurez votre cluster de sorte qu'il reconnaisse
la topologie de l'h&ocirc;te de votre environnement et les informations sur le r&eacute;seau. Les performances d'Hadoop
sont sup&eacute;rieures s'il utilise les transferts au sein du rack, lorsqu'une plus grande bande passante est
disponible, plut&ocirc;t que les transferts hors rack lorsqu'il attribue des t&acirc;ches MapReduce aux nœuds. HDFS
peut placer des r&eacute;plicas de mani&egrave;re plus intelligente pour am&eacute;liorer les performances et la r&eacute;silience. Par
exemple, si vous avez des nœuds de donn&eacute;es et des nœuds de calcul distincts, vous pouvez am&eacute;liorer les
performances et le d&eacute;bit en pla&ccedil;ant les nœuds sur le m&ecirc;me ensemble d'h&ocirc;tes physiques.
AVERTISSEMENT Lorsque vous cr&eacute;ez un cluster avec Big Data Extensions, Big Data Extensions d&eacute;sactive la
migration automatique des machines virtuelles du cluster. Cela emp&ecirc;che la migration des machines
virtuelles par vSphere, mais ne vous emp&ecirc;che pas de d&eacute;placer accidentellement les nœuds du cluster vers
d'autres h&ocirc;tes avec l'interface utilisateur de vCenter Server. N'utilisez pas l'interface utilisateur de vCenter
Server pour migrer des clusters. L'utilisation de ces fonctions de gestion en dehors de l'environnement Big
Data Extensions peut enfreindre la strat&eacute;gie de placement du cluster, notamment le nombre d'instances par
h&ocirc;te et les associations de groupe. M&ecirc;me si vous ne sp&eacute;cifiez aucune strat&eacute;gie de placement, l'utilisation de
vCenter Server pour migrer des clusters peut transgresser les contraintes de la strat&eacute;gie de placement
ROUNDROBIN par d&eacute;faut.
38
VMware, Inc.
Chapitre 5 Cr&eacute;ation de clusters Hadoop et HBase
Vous pouvez sp&eacute;cifier les configurations suivantes de reconnaissance de la topologie.
Extensions de
virtualisation Hadoop
(HVE, Hadoop
Virtualization
Extensions)
Fiabilit&eacute; et performances des clusters am&eacute;lior&eacute;es gr&acirc;ce &agrave; un placement des
r&eacute;plicas, une planification des t&acirc;ches et des politiques d'&eacute;quilibrage Hadoop
plus pr&eacute;cis. Les clusters Hadoop impl&eacute;ment&eacute;s dans une infrastructure
virtualis&eacute;e sont dot&eacute;s d'une reconnaissance compl&egrave;te de la topologie sur
laquelle ils fonctionnent lorsqu'ils utilisent HVE.
Pour utiliser HVE, votre distribution Hadoop doit prendre en charge HVE et
vous devez cr&eacute;er et t&eacute;l&eacute;charger un fichier de mappage rack-h&ocirc;tes.
RACK_EN_RACK
Topologie standard pour les distributions Apache Hadoop. Seules les
informations sur le rack et l'h&ocirc;te sont expos&eacute;es &agrave; Hadoop. Pour utiliser
RACK_AS_RACK, cr&eacute;ez et t&eacute;l&eacute;chargez un fichier de topologie de serveur.
H&Ocirc;TE_EN_RACK
Topologie simplifi&eacute;e pour les distributions Apache Hadoop. Pour &eacute;viter de
placer tous les r&eacute;plicas de blocs de donn&eacute;es HDFS sur le m&ecirc;me h&ocirc;te
physique, chaque h&ocirc;te physique est trait&eacute; comme un rack. &Eacute;tant donn&eacute; que
les r&eacute;plicas des blocs de donn&eacute;es ne sont jamais plac&eacute;s sur un rack, cela &eacute;vite
le pire sc&eacute;nario o&ugrave; une d&eacute;faillance d'un seul h&ocirc;te provoque la perte totale
d'un bloc de donn&eacute;es.
Utilisez HOST_AS_RACK si votre cluster utilise un seul rack ou si vous ne
disposez pas d'informations sur le rack vous permettant de d&eacute;cider des
options de configuration de la topologie.
Aucune
Aucune topologie n'est sp&eacute;cifi&eacute;e.
Fichier de mappage rack/h&ocirc;tes de la topologie
Les fichiers de mappage rack/h&ocirc;tes de la topologie sont des fichiers texte brut qui associent les racks
logiques aux h&ocirc;tes physiques. Ces fichiers sont obligatoires pour cr&eacute;er des clusters avec une topologie HVE
ou RACK_AS_RACK.
Le format de chaque ligne d'un fichier de mappage rack/h&ocirc;tes de la topologie est :
rackname: hostname1, hostname2 ...
Par exemple, pour affecter les h&ocirc;tes physiques a.b.foo.com et a.c.foo.com &agrave; rack1, et l'h&ocirc;te physique
c.a.foo.com &agrave; rack2, incluez les lignes suivantes dans votre fichier de mappage rack/h&ocirc;tes de la topologie.
rack1: a.b.foo.com, a.c.foo.com
rack2: c.a.foo.com
Fichiers de d&eacute;finition de la strat&eacute;gie de placement de la topologie
Le champ placementPolicies du fichier de sp&eacute;cification de cluster contr&ocirc;le la fa&ccedil;on dont les nœuds sont
plac&eacute;s dans le cluster.
Si vous sp&eacute;cifiez des valeurs pour instancePerHost et pour groupRacks, il doit y avoir un nombre suffisant
d'h&ocirc;tes disponibles. Pour afficher les informations sur les racks h&ocirc;tes, utilisez la commande topology list.
Le code illustre un exemple du champ placementPolicies dans un fichier de sp&eacute;cification de cluster.
{
&quot;nodeGroups&quot;:[
…
{
&quot;name&quot;: &quot;group_name&quot;,
…
&quot;placementPolicies&quot;: {
VMware, Inc.
39
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
&quot;instancePerHost&quot;: 2,
&quot;groupRacks&quot;: {
&quot;type&quot;: &quot;ROUNDROBIN&quot;,
&quot;racks&quot;: [&quot;rack1&quot;, &quot;rack2&quot;, &quot;rack3&quot;]
},
&quot;groupAssociations&quot;: [{
&quot;reference&quot;: &quot;another_group_name&quot;,
&quot;type&quot;: &quot;STRICT&quot;
// or &quot;WEAK&quot;
}]
}
},
…
}
Tableau 5‑1. D&eacute;finition de l'objet placementPolicies
Champ JSON
Type
Description
instancePerHost
Facultatif
Nombre de nœuds de machine
virtuelle &agrave; placer pour chaque h&ocirc;te
ESXi physique. Cette contrainte est
destin&eacute;e &agrave; &eacute;quilibrer la charge de
travail.
groupRacks
Facultatif
M&eacute;thode de r&eacute;partition des nœuds de
machine virtuelle entre les racks
physiques du cluster. Sp&eacute;cifiez les
cha&icirc;nes JSON suivantes :
groupAssociations
Facultatif
n
type. Sp&eacute;cifiez ROUNDROBIN
pour s&eacute;lectionner les candidats
&eacute;quitablement et sans priorit&eacute;.
n
racks. Racks de la carte de
topologie &agrave; utiliser.
Un ou plusieurs groupes de nœuds
cibles auquel ou auxquels ce groupe de
nœuds est associ&eacute;. Sp&eacute;cifiez les cha&icirc;nes
JSON suivantes :
n
reference. Nom du groupe de
nœuds cible
n
type:
STRICT. Placez le groupe de
nœuds sur l'ensemble ou le sousensemble d'h&ocirc;tes ESXi du groupe
cible. Si le placement STRICT n'est
pas possible, l'op&eacute;ration &eacute;choue.
FAIBLE. Essayez de placer le
groupe de nœuds sur l'ensemble
ou le sous-ensemble d'h&ocirc;tes ESXi
du groupe cible, mais si ce n'est
pas possible, utilisez un h&ocirc;te ESXi
suppl&eacute;mentaire.
n
n
40
VMware, Inc.
Chapitre 5 Cr&eacute;ation de clusters Hadoop et HBase
Cr&eacute;er un cluster avec prise en charge de la topologie &agrave; l'aide de l'interface de
ligne de commande Serengeti
Pour obtenir une charge de travail &eacute;quilibr&eacute;e ou am&eacute;liorer les performances et le d&eacute;bit, vous pouvez
contr&ocirc;ler la fa&ccedil;on dont les machines virtuelles Hadoop sont plac&eacute;es en ajoutant la prise en charge de la
topologie aux clusters Hadoop. Par exemple, vous pouvez avoir des nœuds de donn&eacute;es et des nœuds de
calcul distincts, et am&eacute;liorer les performances et le d&eacute;bit en pla&ccedil;ant les nœuds sur le m&ecirc;me ensemble d'h&ocirc;tes
physiques.
Pr&eacute;requis
n
D&eacute;ployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources ad&eacute;quates allou&eacute;es ex&eacute;cuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par d&eacute;faut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'Serengeti CLI.
2
(Facultatif) Ex&eacute;cutez la commande topology list pour afficher la liste des topologies disponibles.
topology list
3
(Facultatif) Si vous voulez que le cluster utilise les topologies HVE ou RACK_AS_RACK, cr&eacute;ez un
fichier de mappage rack/h&ocirc;tes de topologie, puis t&eacute;l&eacute;chargez le fichier sur le serveur de gestion
Serengeti.
topology upload --fileName name_of_rack_hosts_mapping_file
4
Ex&eacute;cutez la commande cluster create pour cr&eacute;er le cluster.
cluster create --name cluster-name ... --topology {HVE|RACK_AS_RACK|HOST_AS_RACK}
REMARQUE Pour cr&eacute;er un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou
Pivotal PHD 1.1 ou version ult&eacute;rieure, vous devez configurer un DNS et un FQDN valides pour le trafic
r&eacute;seau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la r&eacute;solution FQDN/IP
dans un sens et dans l'autre, le processus de cr&eacute;ation du cluster risque d'&eacute;chouer ou le cluster est cr&eacute;&eacute;
mais il ne fonctionne pas.
L'exemple cr&eacute;e une topologie HVE.
cluster create --name cluster-name --topology HVE --distro name_of_HVE-supported_distro
5
Affichez les nœuds allou&eacute;s sur chaque rack.
cluster list --name cluster-name –-detail
&Agrave; propos des clusters HBase
HBase s'ex&eacute;cute par-dessus HDFS et offre une solution de tol&eacute;rance aux pannes pour stocker de grandes
quantit&eacute;s de donn&eacute;es &eacute;parses.
VMware, Inc.
41
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Cr&eacute;er un cluster HBase par d&eacute;faut avec l'interface de ligne de commande
Serengeti
Vous pouvez utiliser l'Serengeti CLI pour d&eacute;ployer les clusters HBase sur HDFS.
Cette t&acirc;che cr&eacute;e un cluster HBase par d&eacute;faut qui ne contient pas l'infrastructure MapReduce. Ex&eacute;cuter les
t&acirc;ches MapReduce HBase, ajoutez les nœuds Jobtracker et TaskTracker ou ResourceManager et
NodeManager &agrave; l'exemple de fichier de sp&eacute;cification de cluster HBase par
d&eacute;faut /opt/serengeti/samples/default_hbase_cluster.json, puis cr&eacute;ez un cluster &agrave; l'aide de ce fichier de
sp&eacute;cification.
Pr&eacute;requis
n
D&eacute;ployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources ad&eacute;quates allou&eacute;es ex&eacute;cuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par d&eacute;faut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'Serengeti CLI.
2
Ex&eacute;cutez le cluster create command et sp&eacute;cifiez la valeur du param&egrave;tre --type comme hbase.
cluster create --name cluster_name --type hbase
Suivant
Apr&egrave;s avoir d&eacute;ploy&eacute; le cluster, vous pouvez acc&eacute;der &agrave; une base de donn&eacute;es HBase &agrave; l'aide de plusieurs
m&eacute;thodes. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
Cr&eacute;er un cluster uniquement HBase dans Big Data Extensions
Big Data Extensions vous permet de cr&eacute;er un cluster uniquement HBase qui contient uniquement des
nœuds HBase Master, HBase RegionServer et Zookeeper, mais aucun nœud NameNode ni DataNode. Le
cluster uniquement HBase pr&eacute;sente l'avantage de permettre &agrave; plusieurs clusters HBase d'utiliser le m&ecirc;me
HDFS externe.
Proc&eacute;dure
1
Conditions pr&eacute;alables &agrave; la cr&eacute;ation d'un cluster uniquement HBase page 43
Pour pouvoir cr&eacute;er un cluster uniquement HBase, vous devez d'abord v&eacute;rifier que votre syst&egrave;me
remplit toutes les conditions pr&eacute;alables.
2
Pr&eacute;parer EMC Isilon OneFS en tant que cluster HDFS externe page 43
Si vous utilisez EMC Isilon OneFS pour prendre en charge un cluster HDFS externe afin de l'utiliser
avec un cluster uniquement HBase, vous devez cr&eacute;er et configurer des utilisateurs et des groupes
d'utilisateurs, et pr&eacute;parer votre environnement Isilon OneFS.
3
Cr&eacute;er un cluster uniquement HBase avec l'interface de ligne de commande Serengeti page 44
Vous pouvez utiliser l'interface de ligne de commande Serengeti pour cr&eacute;er un cluster uniquement
HBase.
42
VMware, Inc.
Chapitre 5 Cr&eacute;ation de clusters Hadoop et HBase
Conditions pr&eacute;alables &agrave; la cr&eacute;ation d'un cluster uniquement HBase
Pour pouvoir cr&eacute;er un cluster uniquement HBase, vous devez d'abord v&eacute;rifier que votre syst&egrave;me remplit
toutes les conditions pr&eacute;alables.
Conditions pr&eacute;alables
n
V&eacute;rifiez que vous avez d&eacute;marr&eacute; Serengeti vApp.
n
V&eacute;rifiez que vous avez plusieurs distributions si vous voulez en utiliser une diff&eacute;rente de celle par
d&eacute;faut.
n
V&eacute;rifiez que vous avez un cluster HDFS existant &agrave; utiliser en tant que cluster HDFS externe.
Pour &eacute;viter les conflits entre le cluster uniquement HBase et le cluster HDFS externe, les clusters
doivent utiliser la m&ecirc;me distribution Hadoop et la m&ecirc;me version.
n
n
Si le cluster HDFS n'a pas &eacute;t&eacute; cr&eacute;&eacute; &agrave; l'aide de Big Data Extensions, v&eacute;rifiez que le r&eacute;pertoire
HDFS /hadoop/hbase, le groupe hadoop et les utilisateurs suivants existent dans le cluster HDFS
externe :
n
hdfs
n
hbase
n
serengeti
Si vous utilisez EMC Isilon OneFS en tant que cluster HDFS externe, v&eacute;rifiez que votre environnement
Isilon est pr&eacute;par&eacute;.
Pour plus d'informations sur la mani&egrave;re de pr&eacute;parer votre environnement, consultez &laquo; Pr&eacute;parer EMC
Isilon OneFS en tant que cluster HDFS externe &raquo;, page 43.
Pr&eacute;parer EMC Isilon OneFS en tant que cluster HDFS externe
Si vous utilisez EMC Isilon OneFS pour prendre en charge un cluster HDFS externe afin de l'utiliser avec un
cluster uniquement HBase, vous devez cr&eacute;er et configurer des utilisateurs et des groupes d'utilisateurs, et
pr&eacute;parer votre environnement Isilon OneFS.
Proc&eacute;dure
1
Connectez-vous &agrave; l'un des nœuds HDFS Isilon en tant que user root
2
Cr&eacute;ez les utilisateurs.
n
hdfs
n
hbase
n
serengeti
n
mapred
Les utilisateurs yarn et mapred doivent disposer d'autorisations d'&eacute;criture; de lecture et d'ex&eacute;cution pour
tout le r&eacute;pertoire HDFS export&eacute;.
3
Cr&eacute;ez le groupe d'utilisateurs hadoop.
4
Cr&eacute;ez le r&eacute;pertoire tmp sous le r&eacute;pertoire HDFS racine.
5
D&eacute;finissez le propri&eacute;taire en tant que hdfs:hadoop et les autorisations de lecture et d'&eacute;criture 777.
6
Cr&eacute;ez le r&eacute;pertoire hadoop sous le r&eacute;pertoire HDFS racine.
7
D&eacute;finissez le propri&eacute;taire en tant que hdfs:hadoop et les autorisations de lecture et d'&eacute;criture 775.
8
Cr&eacute;ez le r&eacute;pertoire hbase sous le r&eacute;pertoire hadoop.
VMware, Inc.
43
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
9
D&eacute;finissez le propri&eacute;taire en tant que hbase:hadoop et les autorisations de lecture et d'&eacute;criture 775.
10
D&eacute;finissez le propri&eacute;taire du r&eacute;pertoire HDFS en tant que hdfs:hadoop.
Exemple : Configuration de l'environnement EMC Isilon OneFS
isi auth users create --name=&quot;hdfs&quot;
isi auth users create --name=&quot;hbase&quot;
isi auth users create --name=&quot;serengeti&quot;
isi auth groups create --name=&quot;hadoop&quot;
pw useradd mapred -G wheel
pw useradd yarn -G wheel
chown hdfs:hadoop /ifs
mkdir /ifs/tmp
chmod 777 /ifs/tmp
chown hdfs:hadoop /ifs/tmp
mkdir -p /ifs/hadoop/hbase
chmod -R 775 /ifs/hadoop
chown hdfs:hadoop /ifs/hadoop
chown hbase:hadoop /ifs/hadoop/hbase
Suivant
Vous &ecirc;tes maintenant pr&ecirc;t &agrave; cr&eacute;er le cluster uniquement HBase avec EMC Isilon OneFS en tant que cluster
externe.
Cr&eacute;er un cluster uniquement HBase avec l'interface de ligne de commande
Serengeti
Vous pouvez utiliser l'interface de ligne de commande Serengeti pour cr&eacute;er un cluster uniquement HBase.
Vous devez utiliser le gestionnaire d'applications par d&eacute;faut, car les autres gestionnaires d'applications ne
prennent pas en charge les clusters uniquement HBase.
Proc&eacute;dure
1
Pour d&eacute;finir les caract&eacute;ristiques du nouveau cluster, effectuez une copie du fichier de sp&eacute;cification de
cluster suivant :/opt/serengeti/samples/hbase_only_cluster.json
2
Remplacez hdfs://hostname-of-namenode:8020 dans le fichier de sp&eacute;cification par l'URI du nom de
nœud du cluster HDFS externe.
3
Acc&eacute;dez &agrave; l'interface de ligne de commande Serengeti.
4
Ex&eacute;cutez la commande cluster create.
cluster create --name clustername --distro distroname
--specfile specfile_location
Le fichier /opt/serengeti/samples/hbase_only_cluster.json est un exemple de fichier de sp&eacute;cification
pour les clusters uniquement HBase. Il contient les r&ocirc;les zookeeper, hbase_master et
hbase_regionserver, mais pas le r&ocirc;le hadoop_namenode/hadoop_datanode.
5
Pour v&eacute;rifier que le cluster a &eacute;t&eacute; cr&eacute;&eacute;, ex&eacute;cutez la commande cluster list .
cluster list --name name
Lorsque le cluster est cr&eacute;&eacute;, le syst&egrave;me retourne Cluster clustername cr&eacute;&eacute;.
44
VMware, Inc.
Chapitre 5 Cr&eacute;ation de clusters Hadoop et HBase
Cr&eacute;er un cluster HBase avec protection HA vSphere &agrave; l'aide de l'interface de
ligne de commande Serengeti
Vous pouvez cr&eacute;er des clusters HBase avec des r&ocirc;les ma&icirc;tres Hadoop NameNode et HBase distincts. Vous
pouvez configurer la protection HA vSphere HA pour les r&ocirc;les ma&icirc;tres.
Pr&eacute;requis
n
D&eacute;ployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources ad&eacute;quates allou&eacute;es ex&eacute;cuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par d&eacute;faut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Proc&eacute;dure
1
Cr&eacute;ez un fichier de sp&eacute;cification de cluster pour d&eacute;finir les caract&eacute;ristiques du cluster, y compris les
r&ocirc;les des groupes de nœuds et la protection vSphere HA.
Dans cet exemple, le cluster poss&egrave;de les nœuds JobTracker et TaskTracker, qui vous permettent
d'ex&eacute;cuter les t&acirc;ches HBase MapReduce. Les r&ocirc;les ma&icirc;tres Hadoop NameNode et HBase sont distincts,
et les deux sont prot&eacute;g&eacute;s par vSphere HA.
{
&quot;nodeGroups&quot; : [
{
&quot;name&quot; : &quot;zookeeper&quot;,
&quot;roles&quot; : [
&quot;zookeeper&quot;
],
&quot;instanceNum&quot; : 3,
&quot;instanceType&quot; : &quot;SMALL&quot;,
&quot;storage&quot; : {
&quot;type&quot; : &quot;shared&quot;,
&quot;sizeGB&quot; : 20
},
&quot;cpuNum&quot; : 1,
&quot;memCapacityMB&quot; : 3748,
&quot;haFlag&quot; : &quot;on&quot;,
&quot;configuration&quot; : {
}
},
{
&quot;name&quot; : &quot;hadoopmaster&quot;,
&quot;roles&quot; : [
&quot;hadoop_namenode&quot;,
&quot;hadoop_jobtracker&quot;
],
&quot;instanceNum&quot; : 1,
&quot;instanceType&quot; : &quot;MEDIUM&quot;,
&quot;storage&quot; : {
&quot;type&quot; : &quot;shared&quot;,
&quot;sizeGB&quot; : 50
},
&quot;cpuNum&quot; : 2,
&quot;memCapacityMB&quot; : 7500,
VMware, Inc.
45
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
&quot;haFlag&quot; : &quot;on&quot;,
&quot;configuration&quot; : {
}
},
{
&quot;name&quot; : &quot;hbasemaster&quot;,
&quot;roles&quot; : [
&quot;hbase_master&quot;
],
&quot;instanceNum&quot; : 1,
&quot;instanceType&quot; : &quot;MEDIUM&quot;,
&quot;storage&quot; : {
&quot;type&quot; : &quot;shared&quot;,
&quot;sizeGB&quot; : 50
},
&quot;cpuNum&quot; : 2,
&quot;memCapacityMB&quot; : 7500,
&quot;haFlag&quot; : &quot;on&quot;,
&quot;configuration&quot; : {
}
},
{
&quot;name&quot; : &quot;worker&quot;,
&quot;roles&quot; : [
&quot;hadoop_datanode&quot;,
&quot;hadoop_tasktracker&quot;,
&quot;hbase_regionserver&quot;
],
&quot;instanceNum&quot; : 3,
&quot;instanceType&quot; : &quot;SMALL&quot;,
&quot;storage&quot; : {
&quot;type&quot; : &quot;local&quot;,
&quot;sizeGB&quot; : 50
},
&quot;cpuNum&quot; : 1,
&quot;memCapacityMB&quot; : 3748,
&quot;haFlag&quot; : &quot;off&quot;,
&quot;configuration&quot; : {
}
},
{
&quot;name&quot; : &quot;client&quot;,
&quot;roles&quot; : [
&quot;hadoop_client&quot;,
&quot;hbase_client&quot;
],
&quot;instanceNum&quot; : 1,
&quot;instanceType&quot; : &quot;SMALL&quot;,
&quot;storage&quot; : {
&quot;type&quot; : &quot;shared&quot;,
&quot;sizeGB&quot; : 50
},
&quot;cpuNum&quot; : 1,
&quot;memCapacityMB&quot; : 3748,
46
VMware, Inc.
Chapitre 5 Cr&eacute;ation de clusters Hadoop et HBase
&quot;haFlag&quot; : &quot;off&quot;,
&quot;configuration&quot; : {
}
}
],
// we suggest running convert-hadoop-conf.rb to generate &quot;configuration&quot; section and paste
the output here
&quot;configuration&quot; : {
&quot;hadoop&quot;: {
&quot;core-site.xml&quot;: {
// check for all settings at http://hadoop.apache.org/common/docs/stable/coredefault.html
// note: any value (int, float, boolean, string) must be enclosed in double quotes
and here is a sample:
// &quot;io.file.buffer.size&quot;: &quot;4096&quot;
},
&quot;hdfs-site.xml&quot;: {
// check for all settings at http://hadoop.apache.org/common/docs/stable/hdfsdefault.html
},
&quot;mapred-site.xml&quot;: {
// check for all settings at http://hadoop.apache.org/common/docs/stable/mapreddefault.html
},
&quot;hadoop-env.sh&quot;: {
// &quot;HADOOP_HEAPSIZE&quot;: &quot;&quot;,
// &quot;HADOOP_NAMENODE_OPTS&quot;: &quot;&quot;,
// &quot;HADOOP_DATANODE_OPTS&quot;: &quot;&quot;,
// &quot;HADOOP_SECONDARYNAMENODE_OPTS&quot;: &quot;&quot;,
// &quot;HADOOP_JOBTRACKER_OPTS&quot;: &quot;&quot;,
// &quot;HADOOP_TASKTRACKER_OPTS&quot;: &quot;&quot;,
// &quot;HADOOP_CLASSPATH&quot;: &quot;&quot;,
// &quot;JAVA_HOME&quot;: &quot;&quot;,
// &quot;PATH&quot;: &quot;&quot;
},
&quot;log4j.properties&quot;: {
// &quot;hadoop.root.logger&quot;: &quot;DEBUG,DRFA&quot;,
// &quot;hadoop.security.logger&quot;: &quot;DEBUG,DRFA&quot;
},
&quot;fair-scheduler.xml&quot;: {
// check for all settings at
http://hadoop.apache.org/docs/stable/fair_scheduler.html
// &quot;text&quot;: &quot;the full content of fair-scheduler.xml in one line&quot;
},
&quot;capacity-scheduler.xml&quot;: {
// check for all settings at
http://hadoop.apache.org/docs/stable/capacity_scheduler.html
},
&quot;mapred-queue-acls.xml&quot;: {
// check for all settings at
http://hadoop.apache.org/docs/stable/cluster_setup.html#Configuring+the+Hadoop+Daemons
// &quot;mapred.queue.queue-name.acl-submit-job&quot;: &quot;&quot;,
// &quot;mapred.queue.queue-name.acl-administer-jobs&quot;, &quot;&quot;
}
},
VMware, Inc.
47
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
&quot;hbase&quot;: {
&quot;hbase-site.xml&quot;: {
// check for all settings at http://hbase.apache.org/configuration.html#hbase.site
},
&quot;hbase-env.sh&quot;: {
// &quot;JAVA_HOME&quot;: &quot;&quot;,
// &quot;PATH&quot;: &quot;&quot;,
// &quot;HBASE_CLASSPATH&quot;: &quot;&quot;,
// &quot;HBASE_HEAPSIZE&quot;: &quot;&quot;,
// &quot;HBASE_OPTS&quot;: &quot;&quot;,
// &quot;HBASE_USE_GC_LOGFILE&quot;: &quot;&quot;,
// &quot;HBASE_JMX_BASE&quot;: &quot;&quot;,
// &quot;HBASE_MASTER_OPTS&quot;: &quot;&quot;,
// &quot;HBASE_REGIONSERVER_OPTS&quot;: &quot;&quot;,
// &quot;HBASE_THRIFT_OPTS&quot;: &quot;&quot;,
// &quot;HBASE_ZOOKEEPER_OPTS&quot;: &quot;&quot;,
// &quot;HBASE_REGIONSERVERS&quot;: &quot;&quot;,
// &quot;HBASE_SSH_OPTS&quot;: &quot;&quot;,
// &quot;HBASE_NICENESS&quot;: &quot;&quot;,
// &quot;HBASE_SLAVE_SLEEP&quot;: &quot;&quot;
},
&quot;log4j.properties&quot;: {
// &quot;hbase.root.logger&quot;: &quot;DEBUG,DRFA&quot;
}
},
&quot;zookeeper&quot;: {
&quot;java.env&quot;: {
// &quot;JVMFLAGS&quot;: &quot;-Xmx2g&quot;
},
&quot;log4j.properties&quot;: {
// &quot;zookeeper.root.logger&quot;: &quot;DEBUG,DRFA&quot;
}
}
}
}
2
Acc&eacute;dez &agrave; l'interface de ligne de commande Serengeti.
3
Ex&eacute;cutez la commande cluster create et sp&eacute;cifiez le fichier de sp&eacute;cification de cluster.
cluster create --name cluster_name --specFile full_path/spec_filename
Cr&eacute;er un cluster du travailleur uniquement HBase avec un cluster HA HDFS
namenode externe
Vous pouvez cr&eacute;er un cluster du travailleur uniquement HBase avec deux namenodes dans une
configuration HA active-passive. Le namenode HA fournit un namenode de serveur de secours qui, en cas
de d&eacute;faillance, peut ex&eacute;cuter le r&ocirc;le du namenode actif sans interruption.
n
Les clusters du travailleur uniquement ne sont pas pris en charge sur les gestionnaires d'applications
Ambari et Cloudera Manager.
n
Les clusters du travailleur uniquement MapReduce v1 et les clusters uniquement HBase cr&eacute;&eacute;s &agrave; l'aide
de la distribution MapR ne sont pas pris en charge.
Pr&eacute;requis
n
48
D&eacute;ployez le vApp Serengeti.
VMware, Inc.
Chapitre 5 Cr&eacute;ation de clusters Hadoop et HBase
n
Assurez-vous d'avoir les ressources ad&eacute;quates allou&eacute;es ex&eacute;cuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par d&eacute;faut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Proc&eacute;dure
1
Pour d&eacute;finir les caract&eacute;ristiques du nouveau cluster, effectuez une copie du fichier de sp&eacute;cification de
cluster suivant :/opt/serengeti/samples/hbase_only_cluster.json
2
Remplacez hdfs://hostname-of-namenode:8020 dans le fichier de sp&eacute;cification par l'URI du namenode du
cluster HA HDFS namenode externe. L'URI du namenode est la valeur du param&egrave;tre fs.defaultFS du
core-site.xml du cluster externe.
3
Modifiez la section de configuration du fichier de sp&eacute;cification de cluster uniquement HBase comme
illustr&eacute; dans l'exemple suivant. Toutes les valeurs sont disponibles dans le hdfs-site.xml du cluster
externe.
&quot;configuration&quot; : {
&quot;hadoop&quot;: {
&quot;hdfs-site.xml&quot;: {
&quot;dfs.nameservices&quot;: &quot;dataMaster&quot;,
&quot;dfs.ha.namenodes.dataMaster&quot;: &quot;namenode0,namenode1&quot;,
&quot;dfs.client.failover.proxy.provider.dataMaster&quot;:
&quot;org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider&quot;,
&quot;dfs.namenode.rpc-address.dataMaster.namenode0&quot;: &quot;10.555.xx.xxx:xxx1&quot;,
&quot;dfs.namenode.http-address.dataMaster.namenode0&quot;: &quot;10.555.xx.xxx:xxx2&quot;,
&quot;dfs.namenode.rpc-address.dataMaster.namenode1&quot;: &quot;10.555.xx.xxx:xxx3&quot;,
&quot;dfs.namenode.http-address.dataMaster.namenode1&quot;: &quot;10.555.xx.xxx:xxx4&quot;
}
}
}
&Agrave; propos des clusters MapReduce
MapReduce est une infrastructure qui permet de traiter les probl&egrave;mes en parall&egrave;le &agrave; travers des jeux de
donn&eacute;es volumineux. L'infrastructure MapReduce distribue &agrave; chaque nœud du r&eacute;seau un certain nombre
d'op&eacute;rations sur le jeu de donn&eacute;es.
Cr&eacute;er un cluster MapReduce v2 (YARN) avec l'interface de ligne de commande
Serengeti
Vous pouvez cr&eacute;er des clusters MapReduce v2 (YARN) si vous voulez cr&eacute;er un cluster qui s&eacute;pare les
composants de traitement et de gestion des ressources.
Pour cr&eacute;er un cluster MapReduce v2 (YARN), cr&eacute;ez un fichier de sp&eacute;cification de cluster inspir&eacute; du
fichier /opt/serengeti/samples/default_hadoop_yarn_cluster.json, puis sp&eacute;cifiez le param&egrave;tre --specFile
et votre fichier de sp&eacute;cification de cluster dans la commande cluster create ....
Pr&eacute;requis
n
D&eacute;ployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources ad&eacute;quates allou&eacute;es ex&eacute;cuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par d&eacute;faut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
VMware, Inc.
49
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'interface de ligne de commande Serengeti.
2
Ex&eacute;cutez la commande cluster create ....
Cet exemple cr&eacute;e un cluster MapReduce v2 personnalis&eacute; &agrave; l'aide de la distribution CDH4 selon
l'exemple de fichier de sp&eacute;cification de cluster default_hadoop_yarn_cluster.json.
cluster create --name cluster_name --distro cdh4 --specFile
/opt/serengeti/samples/default_hadoop_yarn_cluster.json
Cr&eacute;er un cluster du travailleur uniquement MapReduce v1 avec un cluster HA
HDFS namenode externe
Vous pouvez cr&eacute;er un cluster du travailleur uniquement MapReduce v1 avec deux namenodes dans une
configuration HA active-passive. Le namenode HA fournit un namenode de serveur de secours qui, en cas
de d&eacute;faillance, peut ex&eacute;cuter le r&ocirc;le du namenode actif sans interruption.
Les restrictions suivantes s'appliquent &agrave; cette t&acirc;che :
n
Les clusters du travailleur uniquement ne sont pas pris en charge sur les gestionnaires d'applications
Ambari et Cloudera Manager.
n
Vous ne pouvez pas utiliser la distribution MapR pour cr&eacute;er des clusters du travailleur uniquement
MapReduce v1 et des clusters uniquement HBase.
Pr&eacute;requis
n
D&eacute;marrez le vApp Big Data Extensions.
n
Assurez-vous d'avoir les ressources ad&eacute;quates allou&eacute;es ex&eacute;cuter le cluster Hadoop.
n
Assurez-vous que vous avez un cluster HA HDFS namenode externe.
n
Pour utiliser une distribution Hadoop autre que la distribution par d&eacute;faut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Proc&eacute;dure
1
Pour d&eacute;finir les caract&eacute;ristiques du nouveau cluster, ouvrez le fichier de sp&eacute;cification de cluster suivant
&agrave; modifier : /opt/serengeti/samples/compute_workers_only_mr1.json
2
Remplacez hdfs://hostname-of-namenode:8020 dans le fichier de sp&eacute;cification par l'URI du namenode du
cluster HA HDFS namenode externe. L'URI du namenode est la valeur du param&egrave;tre fs.defaultFS du
core-site.xml du cluster externe.
3
Remplacez le hostname-of-jobtracker du fichier de sp&eacute;cification par le FQDN ou l'adresse IP du
JobTracker du cluster externe.
4
Modifiez la section de configuration du fichier de sp&eacute;cification de cluster du travailleur MapReduce
comme illustr&eacute; dans l'exemple suivant. Toutes les valeurs sont disponibles dans le hdfs-site.xml du
cluster externe.
{
&quot;externalHDFS&quot;: &quot;hdfs://dataMaster&quot;,
&quot;externalMapReduce&quot;: &quot;xx.xxx.xxx.xxx:8021&quot;,
&quot;nodeGroups&quot;:[
{
&quot;name&quot;: &quot;worker&quot;,
&quot;roles&quot;: [
&quot;hadoop_tasktracker&quot;
],
50
VMware, Inc.
Chapitre 5 Cr&eacute;ation de clusters Hadoop et HBase
&quot;instanceNum&quot;: 3,
&quot;cpuNum&quot;: 2,
&quot;memCapacityMB&quot;: 7500,
&quot;storage&quot;: {
&quot;type&quot;: &quot;LOCAL&quot;,
&quot;sizeGB&quot;: 20
}
}
],
&quot;configuration&quot; : {
&quot;hadoop&quot;: {
&quot;hdfs-site.xml&quot;: {
&quot;dfs.nameservices&quot;: &quot;dataMaster&quot;,
&quot;dfs.ha.namenodes.dataMaster&quot;: &quot;namenode0,namenode1&quot;,
&quot;dfs.client.failover.proxy.provider.dataMaster&quot;:
&quot;org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider&quot;,
&quot;dfs.namenode.rpc-address.dataMaster.namenode0&quot;: &quot;10.111.xx.xxx:xxx2&quot;,
&quot;dfs.namenode.http-address.dataMaster.namenode0&quot;: &quot;10.111.xx.xxx:xxx3&quot;,
&quot;dfs.namenode.rpc-address.dataMaster.namenode1&quot;: &quot;10.111.xx.xxx:xxx4&quot;,
&quot;dfs.namenode.http-address.dataMaster.namenode1&quot;: &quot;10.111.xx.xxx:xxx5&quot;
}
}
}
}
Cr&eacute;er un cluster du travailleur uniquement MapReduce v2 avec un cluster HA
HDFS namenode externe
Vous pouvez cr&eacute;er un cluster du travailleur uniquement MapReduce v2 (Yarn) avec deux namenodes dans
une configuration HA active-passive. Le namenode HA fournit un namenode de serveur de secours qui, en
cas de d&eacute;faillance, peut ex&eacute;cuter le r&ocirc;le du namenode actif sans interruption.
Les restrictions suivantes s'appliquent &agrave; cette t&acirc;che :
n
Les clusters du travailleur uniquement ne sont pas pris en charge sur les gestionnaires d'applications
Ambari et Cloudera Manager.
n
Vous ne pouvez pas utiliser une distribution MapR pour d&eacute;ployer des clusters du travailleur
uniquement MapReduce v1 et des clusters uniquement HBase.
Pr&eacute;requis
n
D&eacute;marrez le vApp Big Data Extensions.
n
Assurez-vous que vous avez un cluster HA HDFS namenode externe.
n
Assurez-vous d'avoir les ressources ad&eacute;quates allou&eacute;es ex&eacute;cuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par d&eacute;faut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Proc&eacute;dure
1
Pour d&eacute;finir les caract&eacute;ristiques du nouveau cluster, ouvrez le fichier de sp&eacute;cification de cluster suivant
&agrave; modifier : /opt/serengeti/samples/compute_workers_only_yarn.json
2
Remplacez hdfs://hostname-of-namenode:8020 dans le fichier de sp&eacute;cification par l'URI du namenode du
cluster HA HDFS namenode externe. L'URI du namenode est la valeur du param&egrave;tre fs.defaultFS du
core-site.xml du cluster externe.
VMware, Inc.
51
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
3
Remplacez le hostname-of-resourcemanager du fichier de sp&eacute;cification par le FQDN ou l'adresse IP du
ResourceManager du cluster externe.
4
Modifiez la section de configuration du fichier de sp&eacute;cification de cluster du travailleur uniquement
Yarn comme illustr&eacute; dans l'exemple suivant. Toutes les valeurs sont disponibles dans le hdfs-site.xml
du cluster externe.
{
&quot;externalHDFS&quot;: &quot;hdfs://dataMaster&quot;,
&quot;externalMapReduce&quot;: &quot;xx.xxx.xxx.xxx:8021&quot;,
&quot;nodeGroups&quot;:[
{
&quot;name&quot;: &quot;worker&quot;,
&quot;roles&quot;: [
&quot;hadoop_nodemanager&quot;
],
&quot;instanceNum&quot;: 3,
&quot;cpuNum&quot;: 2,
&quot;memCapacityMB&quot;: 7500,
&quot;storage&quot;: {
&quot;type&quot;: &quot;LOCAL&quot;,
&quot;sizeGB&quot;: 20
}
}
],
&quot;configuration&quot; : {
&quot;hadoop&quot;: {
&quot;hdfs-site.xml&quot;: {
&quot;dfs.nameservices&quot;: &quot;dataMaster&quot;,
&quot;dfs.ha.namenodes.dataMaster&quot;: &quot;namenode0,namenode1&quot;,
&quot;dfs.client.failover.proxy.provider.dataMaster&quot;:
&quot;org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider&quot;,
&quot;dfs.namenode.rpc-address.dataMaster.namenode0&quot;: &quot;10.555.xx.xxx:xxx1&quot;,
&quot;dfs.namenode.http-address.dataMaster.namenode0&quot;: &quot;10.555.xx.xxx:xxx2&quot;,
&quot;dfs.namenode.rpc-address.dataMaster.namenode1&quot;: &quot;10.555.xx.xxx:xxx3&quot;,
&quot;dfs.namenode.http-address.dataMaster.namenode1&quot;: &quot;10.555.xx.xxx:xxx4&quot;
}
}
}
}
&Agrave; propos des clusters de calcul de donn&eacute;es
Vous pouvez s&eacute;parer les nœuds de donn&eacute;es et de calcul d'un cluster Hadoop. Vous pouvez aussi contr&ocirc;ler
la fa&ccedil;on dont les nœuds sont plac&eacute;s sur les h&ocirc;tes vSphere ESXi de votre environnement.
Vous pouvez cr&eacute;er un cluster de calcul uniquement pour ex&eacute;cuter les t&acirc;ches MapReduce. Les clusters de
calcul uniquement n'ex&eacute;cutent que les services MapReduce qui lisent les donn&eacute;es &agrave; partir de clusters HDFS
externes et qui n'ont pas besoin de stocker les donn&eacute;es.
Les gestionnaires d'applications Ambari et Cloudera Manager ne prennent en charge ni la s&eacute;paration
calcul/donn&eacute;es, ni les clusters de calcul uniquement.
52
VMware, Inc.
Chapitre 5 Cr&eacute;ation de clusters Hadoop et HBase
Cr&eacute;er un cluster distinct donn&eacute;es-calcul avec prise en charge de la topologie et
contraintes de placement
Vous pouvez cr&eacute;er un cluster avec des nœuds de donn&eacute;es et de calcul distincts, et d&eacute;finir les contraintes de
topologie et de strat&eacute;gie de placement afin de r&eacute;partir les nœuds entre les racks physiques et les machines
virtuelles.
AVERTISSEMENT Lorsque vous cr&eacute;ez un cluster avec Big Data Extensions, Big Data Extensions d&eacute;sactive la
migration automatique des machines virtuelles du cluster. Cela emp&ecirc;che la migration des machines
virtuelles par vSphere, mais ne vous emp&ecirc;che pas de d&eacute;placer accidentellement les nœuds du cluster vers
d'autres h&ocirc;tes avec l'interface utilisateur de vCenter Server. N'utilisez pas l'interface utilisateur de vCenter
Server pour migrer des clusters. L'utilisation de ces fonctions de gestion en dehors de l'environnement Big
Data Extensions peut enfreindre la strat&eacute;gie de placement du cluster, notamment le nombre d'instances par
h&ocirc;te et les associations de groupe. M&ecirc;me si vous ne sp&eacute;cifiez aucune strat&eacute;gie de placement, l'utilisation de
vCenter Server pour migrer des clusters peut transgresser les contraintes de la strat&eacute;gie de placement
ROUNDROBIN par d&eacute;faut.
Pr&eacute;requis
n
D&eacute;marrez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources ad&eacute;quates allou&eacute;es ex&eacute;cuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par d&eacute;faut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
n
Cr&eacute;ez un fichier d'informations de mappage rack/h&ocirc;te.
n
T&eacute;l&eacute;chargez le fichier rack/h&ocirc;te sur le serveur Serengeti avec la commande topology upload.
Proc&eacute;dure
1
Cr&eacute;ez un fichier de sp&eacute;cification de cluster pour d&eacute;finir les caract&eacute;ristiques du cluster, y compris les
groupes de nœuds, la topologie et les contraintes de strat&eacute;gie de placement.
REMARQUE Pour cr&eacute;er un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou
Pivotal PHD 1.1 ou version ult&eacute;rieure, vous devez configurer un DNS et un FQDN valides pour le trafic
r&eacute;seau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la r&eacute;solution FQDN/IP
dans un sens et dans l'autre, le processus de cr&eacute;ation du cluster risque d'&eacute;chouer ou le cluster est cr&eacute;&eacute;
mais il ne fonctionne pas.
Dans cet exemple, le cluster a des contraintes groupAssociations et instancePerHost pour le groupe de
nœuds de calcul et une contrainte groupRacks pour le groupe de nœuds de donn&eacute;es.
Quatre nœuds de donn&eacute;es et huit nœuds de calcul sont plac&eacute;s sur les quatre m&ecirc;mes h&ocirc;tes ESXi, qui
sont &eacute;quitablement s&eacute;lectionn&eacute;s depuis rack1, rack2 et rack3. Chaque h&ocirc;te ESXi poss&egrave;de un nœud de
donn&eacute;es et deux nœuds de calcul. Comme d&eacute;fini pour le groupe de nœuds de calcul, les nœuds de
calcul sont plac&eacute;s uniquement sur les h&ocirc;tes ESXi ayant des nœuds de donn&eacute;es.
Cette d&eacute;finition de cluster n&eacute;cessite que vous configuriez les banques de donn&eacute;es et les pools de
ressources pour au moins quatre h&ocirc;tes, et qu'il existe un espace disque suffisant pour que Serengeti
ex&eacute;cute les placements n&eacute;cessaires pendant le d&eacute;ploiement.
{
&quot;nodeGroups&quot;:[
{
&quot;name&quot;: &quot;master&quot;,
&quot;roles&quot;: [
VMware, Inc.
53
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
&quot;hadoop_namenode&quot;,
&quot;hadoop_jobtracker&quot;
],
&quot;instanceNum&quot;: 1,
&quot;cpuNum&quot;: 2,
&quot;memCapacityMB&quot;: 7500,
},
{
&quot;name&quot;: &quot;data&quot;,
&quot;roles&quot;: [
&quot;hadoop_datanode&quot;
],
&quot;instanceNum&quot;: 4,
&quot;cpuNum&quot;: 1,
&quot;memCapacityMB&quot;: 3748,
&quot;storage&quot;: {
&quot;type&quot;: &quot;LOCAL&quot;,
&quot;sizeGB&quot;: 50
},
&quot;placementPolicies&quot;: {
&quot;instancePerHost&quot;: 1,
&quot;groupRacks&quot;: {
&quot;type&quot;: &quot;ROUNDROBIN&quot;,
&quot;racks&quot;: [&quot;rack1&quot;, &quot;rack2&quot;, &quot;rack3&quot;]
},
}
},
{
&quot;name&quot;: &quot;compute&quot;,
&quot;roles&quot;: [
&quot;hadoop_tasktracker&quot;
],
&quot;instanceNum&quot;: 8,
&quot;cpuNum&quot;: 2,
&quot;memCapacityMB&quot;: 7500,
&quot;storage&quot;: {
&quot;type&quot;: &quot;LOCAL&quot;,
&quot;sizeGB&quot;: 20
},
&quot;placementPolicies&quot;: {
&quot;instancePerHost&quot;: 2,
&quot;groupAssociations&quot;: [
{
&quot;reference&quot;: &quot;data&quot;,
&quot;type&quot;: &quot;STRICT&quot;
}
}
},
{
&quot;name&quot;: &quot;client&quot;,
&quot;roles&quot;: [
&quot;hadoop_client&quot;,
&quot;hive&quot;,
&quot;pig&quot;
],
54
VMware, Inc.
Chapitre 5 Cr&eacute;ation de clusters Hadoop et HBase
&quot;instanceNum&quot;: 1,
&quot;cpuNum&quot;: 1,
&quot;storage&quot;: {
&quot;type&quot;: &quot;LOCAL&quot;,
&quot;sizeGB&quot;: 50
}
}
],
&quot;configuration&quot;: {
}
}
2
Acc&eacute;dez &agrave; l'interface de ligne de commande Serengeti.
3
Ex&eacute;cutez la commande cluster create et sp&eacute;cifiez le fichier de sp&eacute;cification de cluster.
cluster create --name cluster_name --specFile full_path/spec_filename
Cr&eacute;er un cluster distinct donn&eacute;es-calcul sans contraintes de strat&eacute;gie de
placement
Vous pouvez cr&eacute;er un cluster avec des nœuds donn&eacute;es et calcul distincts sans contraintes de placement de
nœud.
Pr&eacute;requis
n
D&eacute;ployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources ad&eacute;quates allou&eacute;es ex&eacute;cuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par d&eacute;faut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Proc&eacute;dure
1
Cr&eacute;ez un fichier de sp&eacute;cification de cluster pour d&eacute;finir les caract&eacute;ristiques du cluster.
REMARQUE Pour cr&eacute;er un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou
Pivotal PHD 1.1 ou version ult&eacute;rieure, vous devez configurer un DNS et un FQDN valides pour le trafic
r&eacute;seau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la r&eacute;solution FQDN/IP
dans un sens et dans l'autre, le processus de cr&eacute;ation du cluster risque d'&eacute;chouer ou le cluster est cr&eacute;&eacute;
mais il ne fonctionne pas.
Dans cet exemple, le cluster poss&egrave;de des nœuds donn&eacute;es et calcul distincts, sans contraintes de strat&eacute;gie
de placement. Quatre nœuds de donn&eacute;es et huit nœuds de calcul sont cr&eacute;&eacute;s et plac&eacute;s sur des machines
virtuelles individuelles. Le nombre de nœuds est configur&eacute; par l'attribut instanceNum.
{
&quot;nodeGroups&quot;:[
{
&quot;name&quot;: &quot;master&quot;,
&quot;roles&quot;: [
&quot;hadoop_namenode&quot;,
&quot;hadoop_jobtracker&quot;
],
&quot;instanceNum&quot;: 1,
&quot;cpuNum&quot;: 2,
&quot;memCapacityMB&quot;: 7500,
},
VMware, Inc.
55
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
{
&quot;name&quot;: &quot;data&quot;,
&quot;roles&quot;: [
&quot;hadoop_datanode&quot;
],
&quot;instanceNum&quot;: 4,
&quot;cpuNum&quot;: 1,
&quot;memCapacityMB&quot;: 3748,
&quot;storage&quot;: {
&quot;type&quot;: &quot;LOCAL&quot;,
&quot;sizeGB&quot;: 50
}
},
{
&quot;name&quot;: &quot;compute&quot;,
&quot;roles&quot;: [
&quot;hadoop_tasktracker&quot;
],
&quot;instanceNum&quot;: 8,
&quot;cpuNum&quot;: 2,
&quot;memCapacityMB&quot;: 7500,
&quot;storage&quot;: {
&quot;type&quot;: &quot;LOCAL&quot;,
&quot;sizeGB&quot;: 20
}
},
{
&quot;name&quot;: &quot;client&quot;,
&quot;roles&quot;: [
&quot;hadoop_client&quot;,
&quot;hive&quot;,
&quot;pig&quot;
],
&quot;instanceNum&quot;: 1,
&quot;cpuNum&quot;: 1,
&quot;storage&quot;: {
&quot;type&quot;: &quot;LOCAL&quot;,
&quot;sizeGB&quot;: 50
}
}
],
&quot;configuration&quot;: {
}
}
2
Acc&eacute;dez &agrave; l'interface de ligne de commande Serengeti.
3
Ex&eacute;cutez la commande cluster create et sp&eacute;cifiez le fichier de sp&eacute;cification de cluster.
cluster create --name cluster_name --specFile full_path/spec_filename
56
VMware, Inc.
Chapitre 5 Cr&eacute;ation de clusters Hadoop et HBase
Cr&eacute;er un cluster distinct donn&eacute;es-calcul avec contraintes de strat&eacute;gie de
placement
Vous pouvez cr&eacute;er un cluster avec des nœuds de donn&eacute;es et de calcul distincts, et d&eacute;finir les contraintes de
strat&eacute;gie de placement afin de r&eacute;partir les nœuds entre les machines virtuelles &agrave; votre guise.
AVERTISSEMENT Lorsque vous cr&eacute;ez un cluster avec Big Data Extensions, Big Data Extensions d&eacute;sactive la
migration automatique des machines virtuelles du cluster. Cela emp&ecirc;che la migration des machines
virtuelles par vSphere, mais ne vous emp&ecirc;che pas de d&eacute;placer accidentellement les nœuds du cluster vers
d'autres h&ocirc;tes avec l'interface utilisateur de vCenter Server. N'utilisez pas l'interface utilisateur de vCenter
Server pour migrer des clusters. L'utilisation de ces fonctions de gestion en dehors de l'environnement Big
Data Extensions peut enfreindre la strat&eacute;gie de placement du cluster, notamment le nombre d'instances par
h&ocirc;te et les associations de groupe. M&ecirc;me si vous ne sp&eacute;cifiez aucune strat&eacute;gie de placement, l'utilisation de
vCenter Server pour migrer des clusters peut transgresser les contraintes de la strat&eacute;gie de placement
ROUNDROBIN par d&eacute;faut.
Pr&eacute;requis
n
D&eacute;ployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources ad&eacute;quates allou&eacute;es ex&eacute;cuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par d&eacute;faut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Proc&eacute;dure
1
Cr&eacute;ez un fichier de sp&eacute;cification de cluster pour d&eacute;finir les caract&eacute;ristiques du cluster, y compris les
groupes de nœuds et les contraintes de strat&eacute;gie de placement.
REMARQUE Pour cr&eacute;er un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou
Pivotal PHD 1.1 ou version ult&eacute;rieure, vous devez configurer un DNS et un FQDN valides pour le trafic
r&eacute;seau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la r&eacute;solution FQDN/IP
dans un sens et dans l'autre, le processus de cr&eacute;ation du cluster risque d'&eacute;chouer ou le cluster est cr&eacute;&eacute;
mais il ne fonctionne pas.
Dans cet exemple, le cluster poss&egrave;de des nœuds donn&eacute;es et calcul distincts, et chaque groupe de nœuds
a une contrainte placementPolicy. Apr&egrave;s un provisionnement r&eacute;ussi, quatre nœuds de donn&eacute;es et huit
nœuds de calcul sont cr&eacute;&eacute;s et plac&eacute;s sur des machines virtuelles individuelles. Avec la contrainte
instancePerHost=1, les quatre nœuds de donn&eacute;es sont plac&eacute;s sur quatre h&ocirc;tes ESXi. Les huit nœuds de
calcul sont plac&eacute; sur quatre h&ocirc;tes ESXi : deux nœuds sur chaque h&ocirc;te ESXi.
Cette sp&eacute;cification de cluster n&eacute;cessite que vous configuriez les banques de donn&eacute;es et les pools de
ressources pour au moins quatre h&ocirc;tes, et qu'il existe un espace disque suffisant pour que Serengeti
ex&eacute;cute les placements n&eacute;cessaires pendant le d&eacute;ploiement.
{
&quot;nodeGroups&quot;:[
{
&quot;name&quot;: &quot;master&quot;,
&quot;roles&quot;: [
&quot;hadoop_namenode&quot;,
&quot;hadoop_jobtracker&quot;
],
&quot;instanceNum&quot;: 1,
&quot;cpuNum&quot;: 2,
&quot;memCapacityMB&quot;: 7500,
VMware, Inc.
57
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
},
{
&quot;name&quot;: &quot;data&quot;,
&quot;roles&quot;: [
&quot;hadoop_datanode&quot;
],
&quot;instanceNum&quot;: 4,
&quot;cpuNum&quot;: 1,
&quot;memCapacityMB&quot;: 3748,
&quot;storage&quot;: {
&quot;type&quot;: &quot;LOCAL&quot;,
&quot;sizeGB&quot;: 50
},
&quot;placementPolicies&quot;: {
&quot;instancePerHost&quot;: 1
}
},
{
&quot;name&quot;: &quot;compute&quot;,
&quot;roles&quot;: [
&quot;hadoop_tasktracker&quot;
],
&quot;instanceNum&quot;: 8,
&quot;cpuNum&quot;: 2,
&quot;memCapacityMB&quot;: 7500,
&quot;storage&quot;: {
&quot;type&quot;: &quot;LOCAL&quot;,
&quot;sizeGB&quot;: 20
},
&quot;placementPolicies&quot;: {
&quot;instancePerHost&quot;: 2
}
},
{
&quot;name&quot;: &quot;client&quot;,
&quot;roles&quot;: [
&quot;hadoop_client&quot;,
&quot;hive&quot;,
&quot;pig&quot;
],
&quot;instanceNum&quot;: 1,
&quot;cpuNum&quot;: 1,
&quot;storage&quot;: {
&quot;type&quot;: &quot;LOCAL&quot;,
&quot;sizeGB&quot;: 50
}
}
],
&quot;configuration&quot;: {
}
}
2
Acc&eacute;dez &agrave; l'interface de ligne de commande Serengeti.
3
Ex&eacute;cutez la commande cluster create et sp&eacute;cifiez le fichier de sp&eacute;cification de cluster.
cluster create --name cluster_name --specFile full_path/spec_filename
58
VMware, Inc.
Chapitre 5 Cr&eacute;ation de clusters Hadoop et HBase
Cr&eacute;er un cluster de calcul uniquement avec le gestionnaire d'applications par
d&eacute;faut
Vous pouvez cr&eacute;er des clusters de calcul uniquement ex&eacute;cuter les t&acirc;ches MapReduce sur les clusters HDFS
existants, y compris les solutions de stockage faisant office de HDFS externe.
REMARQUE Pour cr&eacute;er un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou
Pivotal PHD 1.1 ou version ult&eacute;rieure, vous devez configurer un DNS et un FQDN valides pour le trafic
r&eacute;seau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la r&eacute;solution FQDN/IP dans
un sens et dans l'autre, le processus de cr&eacute;ation du cluster risque d'&eacute;chouer ou le cluster est cr&eacute;&eacute; mais il ne
fonctionne pas.
Pr&eacute;requis
n
D&eacute;ployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources ad&eacute;quates allou&eacute;es ex&eacute;cuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par d&eacute;faut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Proc&eacute;dure
1
Cr&eacute;ez un fichier de sp&eacute;cification de cluster inspir&eacute; de l'exemple de fichier de sp&eacute;cification de cluster
Serengeti compute_only_cluster.json disponible dans le r&eacute;pertoire Serengeti cli/samples.
2
Ajoutez le contenu suivant &agrave; un nouveau fichier de sp&eacute;cification de cluster.
Dans cet exemple, le fichier externalHDFS pointe vers un HDFS. Attribuez le r&ocirc;le hadoop_jobtracker au
groupe de nœuds master et le r&ocirc;le hadoop_tasktracker au groupe de nœuds worker.
Le champ externalHDFS est en conflit avec les groupes de nœuds ayant les r&ocirc;les hadoop_namenode et
hadoop_datanode. Ce conflit peut entra&icirc;ner l'&eacute;chec de la cr&eacute;ation du cluster ou, si la cr&eacute;ation r&eacute;ussit, il se
peut que le cluster ne fonctionne pas correctement. Pour &eacute;viter ce probl&egrave;me, d&eacute;finissez uniquement un
seul HDFS.
{
&quot;externalHDFS&quot;: &quot;hdfs://hostname-of-namenode:8020&quot;,
&quot;nodeGroups&quot;: [
{
&quot;name&quot;: &quot;master&quot;,
&quot;roles&quot;: [
&quot;hadoop_jobtracker&quot;
],
&quot;instanceNum&quot;: 1,
&quot;cpuNum&quot;: 2,
&quot;memCapacityMB&quot;: 7500,
},
{
&quot;name&quot;: &quot;worker&quot;,
&quot;roles&quot;: [
&quot;hadoop_tasktracker&quot;,
],
&quot;instanceNum&quot;: 4,
&quot;cpuNum&quot;: 2,
&quot;memCapacityMB&quot;: 7500,
&quot;storage&quot;: {
VMware, Inc.
59
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
&quot;type&quot;: &quot;LOCAL&quot;,
&quot;sizeGB&quot;: 20
},
},
{
&quot;name&quot;: &quot;client&quot;,
&quot;roles&quot;: [
&quot;hadoop_client&quot;,
&quot;hive&quot;,
&quot;pig&quot;
],
&quot;instanceNum&quot;: 1,
&quot;cpuNum&quot;: 1,
&quot;storage&quot;: {
&quot;type&quot;: &quot;LOCAL&quot;,
&quot;sizeGB&quot;: 50
},
}
],
“configuration” : {
}
}
3
Acc&eacute;dez &agrave; l'interface de ligne de commande Serengeti.
4
Ex&eacute;cutez la commande cluster create et incluez le param&egrave;tre du fichier de sp&eacute;cification de cluster et le
nom de fichier associ&eacute;.
cluster create --name cluster_name --distro distro_name --specFile path/spec_file_name
Cr&eacute;er un cluster de calcul uniquement avec le gestionnaire d'applications
Cloudera Manager
Vous pouvez cr&eacute;er des clusters de calcul uniquement ex&eacute;cuter les t&acirc;ches MapReduce sur les clusters HDFS
existants, y compris les solutions de stockage faisant office de HDFS externe.
Vous pouvez utiliser un gestionnaire d'applications Cloudera Manager avec un syst&egrave;me HDFS externe.
Si vous utilisez EMC Isilon OneFS pour prendre en charge un cluster HDFS externe afin de l'utiliser avec un
cluster uniquement HBase, vous devez cr&eacute;er et configurer des utilisateurs et des groupes d'utilisateurs, et
pr&eacute;parer votre environnement Isilon OneFS. Reportez-vous &agrave; &laquo; Pr&eacute;parer EMC Isilon OneFS en tant que
cluster HDFS externe &raquo;, page 43
Pr&eacute;requis
n
D&eacute;ployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources ad&eacute;quates allou&eacute;es ex&eacute;cuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par d&eacute;faut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Proc&eacute;dure
1
60
Cr&eacute;ez un fichier de sp&eacute;cification de cluster inspir&eacute; de l'exemple de fichier de sp&eacute;cification de cluster
yarn_compute_only_cluster.json disponible dans le r&eacute;pertoire /opt/serengeti/samples/clouderamanager/ du serveur Serengeti.
VMware, Inc.
Chapitre 5 Cr&eacute;ation de clusters Hadoop et HBase
2
Ajoutez le code suivant &agrave; votre nouveau fichier de sp&eacute;cification de cluster.
Dans ce fichier de sp&eacute;cification de cluster, le champ default_fs_name pointe vers un URI HDFS
Namenode et le champ webhdfs_url pointe vers une URL Web HDFS.
{
&quot;nodeGroups&quot;: [
{
&quot;name&quot;: &quot;master&quot;,
&quot;roles&quot;: [
&quot;YARN_RESOURCE_MANAGER&quot;,
&quot;YARN_JOB_HISTORY&quot;
],
&quot;instanceNum&quot;: 1,
&quot;cpuNum&quot;: 2,
&quot;memCapacityMB&quot;: 7500,
&quot;storage&quot;: {
&quot;type&quot;: &quot;SHARED&quot;,
&quot;sizeGB&quot;: 50
},
&quot;haFlag&quot;: &quot;on&quot;,
&quot;configuration&quot;: {
}
},
{
&quot;name&quot;: &quot;worker&quot;,
&quot;roles&quot;: [
&quot;YARN_NODE_MANAGER&quot;,
&quot;GATEWAY&quot;
],
&quot;instanceNum&quot;: 3,
&quot;cpuNum&quot;: 2,
&quot;memCapacityMB&quot;: 7500,
&quot;storage&quot;: {
&quot;type&quot;: &quot;LOCAL&quot;,
&quot;sizeGB&quot;: 50
},
&quot;haFlag&quot;: &quot;off&quot;,
&quot;configuration&quot;: {
}
}
],
&quot;configuration&quot;: {
&quot;ISILON&quot;: {
// service level configurations
// check for all settings by running &quot;appmanager list --name &lt;name&gt; --configurations&quot;
&quot;default_fs_name&quot;: &quot;hdfs://FQDN:8020&quot;,
&quot;webhdfs_url&quot;: &quot;hdfs://FQDN:8020/webhdfs/v1&quot;
},
&quot;YARN&quot;: {
// service level configurations
},
&quot;YARN_RESOURCE_MANAGER&quot;: {
},
&quot;YARN_NODE_MANAGER&quot;: {
VMware, Inc.
61
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
&quot;yarn_nodemanager_local_dirs&quot;: &quot;/yarn/nm&quot;
}
}
}
3
Acc&eacute;dez &agrave; l'Serengeti CLI.
4
Ex&eacute;cutez la commande cluster create et incluez le param&egrave;tre du fichier de sp&eacute;cification de cluster et le
nom de fichier associ&eacute;.
cluster create --name computeOnlyCluster_name -- appManager appManager_name
--distro distro_name --specFile path/spec_file_name
Cr&eacute;er un cluster de calcul uniquement avec Ambari Application Manager et
Isilon
Vous pouvez cr&eacute;er un cluster de calcul uniquement avec le gestionnaire d'applications Ambari &agrave; l'aide de
Isilon OneFS. Pour cr&eacute;er un cluster de calcul uniquement &agrave; l'aide de Isilon OneFS, vous devez activer
Isilon SmartConnect (&eacute;quilibrage de la charge r&eacute;seau).
Pour utiliser EMC Isilon OneFS comme cluster HDFS externe du cluster HBase uniquement, vous devez
cr&eacute;er et configurer des utilisateurs et des groupes d'utilisateurs et pr&eacute;parer votre environnement
Isilon OneFS. Reportez-vous &agrave; &laquo; Pr&eacute;parer EMC Isilon OneFS en tant que cluster HDFS externe &raquo;, page 43
Pr&eacute;requis
n
D&eacute;ployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources ad&eacute;quates allou&eacute;es ex&eacute;cuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution Apache Bigtop par d&eacute;faut, ajoutez une
ou plusieurs distributions de fournisseurs &agrave; votre environnementBig Data Extensions. Consultez le
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
n
V&eacute;rifiez que la distribution Hadoop que vous souhaitez utiliser est compatible avec Isilon OneFS.
Rendez-vous sur le site Internet EMC et consultez la section Distributions Hadoop prises en charge
dans OneFS.
Proc&eacute;dure
1
Cr&eacute;ez un fichier de sp&eacute;cification de cluster mod&eacute;lis&eacute; sur l'un des fichiers exemples de sp&eacute;cification de
cluster suivants : hdp_v2_1_yarn_compute_only_cluster.json ou
hdp_v2_2_yarn_compute_only_cluster.json. Vous trouverez ces fichiers exemples dans le
r&eacute;pertoire /opt/serengeti/samples/ambari/ du serveur Serengeti.
2
Activez Isilon SmartConnect.
isi networks modify subnet --sc-service-addr=SmartConnect_IP --name=subnet_name
isi networks modify pool --name=subnet_name:pool_name --sc-subnet=subnet_name -zone=zone_name
3
Sp&eacute;cifiez le serveur Ambari et nommez le nœud FQDN dans votre environnement Islion.
isi zone zones modify System --hdfs-ambari-namenode=smart_connect_FQDN
isi zone zones modify System --hdfs-ambari-server=ambari_server_FQDN
62
4
Modifiez le fichier de sp&eacute;cification du
cluster, /opt/serengeti/samples/ambari/hdp_v2_*_yarn_compute_only_cluster.json et d&eacute;finissez
externalNamenode sur Isilon SmartConnect FQDN. Si l'attribut externalSecondaryNamenode du fichier de
sp&eacute;cification du cluster est d&eacute;fini sur la m&ecirc;me valeur que externalNamenode, supprimez l'entr&eacute;e pour
externalSecondaryNamenode.
5
Acc&eacute;dez &agrave; l'Serengeti CLI.
VMware, Inc.
Chapitre 5 Cr&eacute;ation de clusters Hadoop et HBase
6
Ex&eacute;cutez la commande cluster create et incluez le param&egrave;tre du fichier de sp&eacute;cification de cluster et le
nom de fichier associ&eacute;.
cluster create --name computeOnlyCluster_name -- appManager appManager_name
--distro distro_name --specFile path/spec_file_name
Suivant
V&eacute;rifiez que votre cluster g&eacute;r&eacute; de calcul uniquement Ambari est cr&eacute;&eacute; correctement, avec la configuration
n&eacute;cessaire pour votre environnement et votre utilisation.
Cr&eacute;er un cluster de calcul du travailleur uniquement avec un cluster HDFS HA
sans Namenode
Si vous avez d&eacute;j&agrave; un cluster Hadoop physique et que vous voulez effectuer des op&eacute;rations n&eacute;cessitant plus
de CPU ou de m&eacute;moire, vous pouvez augmenter la capacit&eacute; de calcul en provisionnant un cluster du
travailleur uniquement. Le cluster du travailleur uniquement fait partie du cluster Hadoop physique et peut
&ecirc;tre augment&eacute; de fa&ccedil;on &eacute;lastique.
Avec les clusters de calcul du travailleur uniquement, vous pouvez &laquo; passer d'un seul coup en mode
virtuel &raquo;. Il s'agit d'une op&eacute;ration temporaire qui implique l'emprunt de ressources lorsque vous en avez
besoin, et leur restitution lorsque vous n'en avez plus besoin. Avec &laquo; passer d'un seul coup en mode
virtuel &raquo;, vous faites tourner les nœuds de calcul du travailleur uniquement et vous les ajoutez &agrave; un cluster
physique existant ou &agrave; un cluster Hadoop virtuel.
Restrictions.
n
Les clusters du travailleur uniquement ne sont pas pris en charge sur les
gestionnaires d'applications Ambari et Cloudera Manager.
n
Ces options ne sont pas prises en charge sur les clusters de calcul du
travailleur uniquement.
n
--appmanager appmanager_name
n
--type cluster_type
n
--hdfsNetworkName hdfs_network_name
n
--mapredNetworkName mapred_network_name
Pr&eacute;requis
n
D&eacute;marrez le vApp Big Data Extensions.
n
V&eacute;rifiez que vous avez un cluster Hadoop existant.
n
V&eacute;rifiez que vous avez les adresses IP des nœuds NameNode et ResourceManager.
n
Assurez-vous d'avoir les ressources ad&eacute;quates allou&eacute;es ex&eacute;cuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par d&eacute;faut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Proc&eacute;dure
1
Pour d&eacute;finir les caract&eacute;ristiques du nouveau cluster, effectuez une copie du fichier de sp&eacute;cification de
cluster suivant :/opt/serengeti/samples/compute_workers_only_mr1.json
2
Remplacez hdfs://hostname-of-namenode:8020 dans le fichier de sp&eacute;cification par l'URI du nom de nœud
du cluster HDFS externe.
3
Remplacez le hostname-of-jobtracker du fichier de sp&eacute;cification par le FQDN ou l'adresse IP du
JobTracker du cluster externe.
VMware, Inc.
63
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
4
Modifiez la section de configuration du fichier de sp&eacute;cification du cluster MapReduce du travailleur
uniquement. Toutes les valeurs sont disponibles dans le hdfs-site.xml du cluster externe.
&Agrave; propos des clusters personnalis&eacute;s
Vous pouvez utiliser un fichier de sp&eacute;cification de cluster existant pour cr&eacute;er des clusters &agrave; l'aide de la
m&ecirc;me configuration que celle des clusters pr&eacute;c&eacute;demment cr&eacute;&eacute;s. Vous pouvez aussi modifier le fichier de
sp&eacute;cification de cluster pour personnaliser la configuration du cluster.
Cr&eacute;er un cluster Hadoop Serengeti par d&eacute;faut avec l'interface de ligne de
commande Serengeti
Vous pouvez cr&eacute;er autant de clusters que vous le voulez dans votre environnement Serengeti, mais votre
environnement doit satisfaire toutes les conditions pr&eacute;alables.
Pr&eacute;requis
n
D&eacute;ployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources ad&eacute;quates allou&eacute;es ex&eacute;cuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par d&eacute;faut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'Serengeti CLI.
2
D&eacute;ployez un cluster Hadoop Serengeti par d&eacute;faut sur vSphere.
n
D&eacute;ployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources ad&eacute;quates allou&eacute;es ex&eacute;cuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution Apache Bigtop fournie, ajoutez une
ou plusieurs distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware
vSphere Big Data Extensions.
cluster create --name cluster_name
Les seuls caract&egrave;res valides dans les noms de clusters sont les caract&egrave;res alphanum&eacute;riques et les traits
de soulignement. Quand vous choisissez le nom de cluster, tenez &eacute;galement compte du nom de vApp
applicable. Ensemble, les noms de vApp et du cluster doivent comprendre moins de 80 caract&egrave;res.
Pendant le processus de d&eacute;ploiement, les mises &agrave; jour en progression en temps r&eacute;el apparaissent sur la ligne
de commande.
Suivant
Lorsque le d&eacute;ploiement est termin&eacute;, vous pouvez ex&eacute;cuter les commandes Hadoop et afficher les adresses IP
des machines virtuelles des nœuds Hadoop &agrave; partir de l'Serengeti CLI.
64
VMware, Inc.
Chapitre 5 Cr&eacute;ation de clusters Hadoop et HBase
Cr&eacute;er un cluster de base avec l'interface de ligne de commande Serengeti
Vous pouvez cr&eacute;er un cluster de base dans votre environnement Serengeti. Un cluster de base est un groupe
de machines virtuelles provisionn&eacute;es et g&eacute;r&eacute;es par Serengeti. Serengeti vous permet de planifier et de
provisionner les machines virtuelles selon vos sp&eacute;cifications et d'utiliser les machines virtuelles pour
installer les applications Big Data.
Le cluster de base n'installe pas les packages d'application Big Data utilis&eacute;s lors de la cr&eacute;ation d'un cluster.
Vous pouvez &agrave; la place installer et g&eacute;rer des applications Big Data avec des outils de gestion d'application
tiers, tels qu'Ambari ou Cloudera Manager, au sein de votre environnement Big Data Extensions, et
l'int&eacute;grer &agrave; votre logiciel Hadoop. Le cluster de base ne d&eacute;ploie pas de cluster. Vous devez d&eacute;ployer les
logiciels sur les machines virtuelles &agrave; l'aide d'un outil de gestion d'application tiers externe.
Le package Serengeti inclut un exemple annot&eacute; de fichier de sp&eacute;cification de cluster que vous pouvez
utiliser comme exemple lorsque vous cr&eacute;ez votre fichier de sp&eacute;cification de cluster de base. Dans le serveur
de gestion Serengeti, l'exemple de fichier de sp&eacute;cification se trouve
sur /opt/serengeti/samples/basic_cluster.json. Vous pouvez modifier les valeurs de configuration de
l'exemple de fichier de sp&eacute;cification de cluster pour r&eacute;pondre &agrave; vos imp&eacute;ratifs. La seule valeur que vous ne
pouvez pas modifier est celle attribu&eacute;e au r&ocirc;le de chaque groupe de nœuds, qui doit toujours &ecirc;tre basic.
Vous pouvez d&eacute;ployer un cluster de base avec le plug-in Big Data Extension &agrave; l'aide d'un fichier de
sp&eacute;cification de cluster personnalis&eacute;.
Pour d&eacute;ployer les logiciels au sein des machines virtuelles du cluster de base, utilisez la commande cluster
list --detail ou ex&eacute;cutez serengeti-ssh.sh cluster_name pour obtenir l'adresse IP de la machine
virtuelle. Vous pouvez alors utiliser l'adresse IP avec des applications de gestion telles qu'Ambari ou
Cloudera Manager pour provisionner la machine virtuelle avec les logiciels de votre choix. Vous pouvez
configurer l'application de gestion pour qu'elle utilise le nom d'utilisateur Serengeti et le mot de passe que
vous avez sp&eacute;cifi&eacute;s lors de la cr&eacute;ation du cluster de base au sein de Big Data Extensions lorsque l'outil de
gestion a besoin d'un nom d'utilisateur et d'un mot de passe pour se connecter aux machines virtuelles.
Pr&eacute;requis
n
D&eacute;ployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources ad&eacute;quates allou&eacute;es pour ex&eacute;cuter le cluster, ainsi que le logiciel Big
Data que vous pr&eacute;voyez de d&eacute;ployer.
Proc&eacute;dure
1
Cr&eacute;ez un fichier de sp&eacute;cification pour d&eacute;finir les caract&eacute;ristiques du cluster de base.
Vous devez utiliser le r&ocirc;le basic pour chaque groupe de nœuds que vous d&eacute;finissez pour le cluster de
base.
{
&quot;nodeGroups&quot;:[
{
&quot;name&quot;: &quot;master&quot;,
&quot;roles&quot;: [
&quot;basic&quot;
],
&quot;instanceNum&quot;: 1,
&quot;cpuNum&quot;: 2,
&quot;memCapacityMB&quot;: 3768,
&quot;storage&quot;: {
&quot;type&quot;: &quot;LOCAL&quot;,
&quot;sizeGB&quot;: 250
},
VMware, Inc.
65
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
&quot;haFlag&quot;: &quot;on&quot;
},
{
&quot;name&quot;: &quot;worker&quot;,
&quot;roles&quot;: [
&quot;basic&quot;
],
&quot;instanceNum&quot;: 1,
&quot;cpuNum&quot;: 2,
&quot;memCapacityMB&quot;: 3768,
&quot;storage&quot;: {
&quot;type&quot;: &quot;LOCAL&quot;,
&quot;sizeGB&quot;: 250
},
&quot;haFlag&quot;: &quot;off&quot;
}
]
}
2
Acc&eacute;dez &agrave; l'interface de ligne de commande Serengeti.
3
Ex&eacute;cutez la commande cluster create et sp&eacute;cifiez le fichier de sp&eacute;cification du cluster de base.
cluster create --name cluster_name --specFile /opt/serengeti/samples/basic_cluster.json -password
REMARQUE Lors de la cr&eacute;ation d'un cluster de base, vous n'avez pas besoin de sp&eacute;cifier un type de
distribution Hadoop &agrave; l'aide de l'option --distro. La raison en est qu'il n'y a aucune distribution
Hadoop en cours d'installation au sein du cluster de base &agrave; g&eacute;rer par Serengeti.
Cr&eacute;er un cluster avec un gestionnaire d'applications &agrave; l'aide de l'interface de
ligne de commande Serengeti
Vous pouvez utiliser l'Serengeti CLI pour ajouter un cluster avec un gestionnaire d'applications autre que le
gestionnaire d'applications par d&eacute;faut. Vous pouvez ensuite g&eacute;rer votre cluster avec le nouveau gestionnaire
d'applications.
REMARQUE Si vous souhaitez cr&eacute;er un r&eacute;f&eacute;rentiel Yum local, vous devez cr&eacute;er le r&eacute;f&eacute;rentiel avant de cr&eacute;er le
cluster.
Pr&eacute;requis
n
Connectez-vous &agrave; un gestionnaire d'applications.
n
Assurez-vous d'avoir les ressources ad&eacute;quates allou&eacute;es pour ex&eacute;cuter le cluster. Pour plus
d'informations sur les ressources requises, consultez la documentation de votre gestionnaire
d'applications.
n
V&eacute;rifiez que vous avez plusieurs distributions si vous voulez utiliser une distribution autre que la
distribution par d&eacute;faut. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Proc&eacute;dure
1
66
Acc&eacute;dez &agrave; l'Serengeti CLI.
VMware, Inc.
Chapitre 5 Cr&eacute;ation de clusters Hadoop et HBase
2
Ex&eacute;cutez la commande cluster.
cluster create --name cluster_name --appManager appmanager_name
--[localrepoURL local_repository_url]
Si vous n'utilisez pas le param&egrave;tre appManager, c'est le gestionnaire d'applications par d&eacute;faut qui est
utilis&eacute;.
Cr&eacute;er un cluster de calcul du travailleur uniquement &agrave; l'aide de vSphere Web
Client
Si vous disposez d&eacute;j&agrave; d'un cluster Hadoop physique et que vous voulez effectuer des op&eacute;rations n&eacute;cessitant
plus de CPU ou de m&eacute;moire, vous pouvez augmenter la capacit&eacute; de calcul en provisionnant un cluster de
travailleurs uniquement. Le cluster de travailleurs uniquement fait partie du cluster Hadoop physique et
peut &ecirc;tre augment&eacute; de fa&ccedil;on &eacute;lastique.
Avec les clusters de calcul du travailleur uniquement, vous pouvez &laquo; passer d'un seul coup en mode
virtuel &raquo;. Il s'agit d'une op&eacute;ration temporaire qui implique l'emprunt de ressources lorsque vous en avez
besoin, et leur restitution lorsque vous n'en avez plus besoin. Avec &laquo; passer d'un seul coup en mode
virtuel &raquo;, vous faites tourner les nœuds de calcul du travailleur uniquement et vous les ajoutez &agrave; un cluster
physique existant ou &agrave; un cluster Hadoop virtuel.
Les clusters du travailleur uniquement ne sont pas pris en charge sur les gestionnaires d'applications
Ambari et Cloudera Manager.
Pr&eacute;requis
n
V&eacute;rifiez que vous avez un cluster Hadoop existant.
n
V&eacute;rifiez que vous avez les adresses IP des nœuds NameNode et ResourceManager.
Proc&eacute;dure
1
Cliquez sur Cr&eacute;er un cluster Big Data dans le volet Objets.
2
Dans l'assistant de cr&eacute;ation du cluster Big Data, choisissez la m&ecirc;me distribution que le cluster Hadoop.
3
D&eacute;finissez l'URL DataMaster : HDFS:namenode ip ou fqdn:8020.
4
D&eacute;finissez l'URL ComputeMaster nodeManager ip ou fqdn.
5
Suivez la proc&eacute;dure indiqu&eacute;e dans l'assistant et ajoutez les autres ressources.
Il y aura trois gestionnaires de nœuds dans le cluster. Les trois nouveaux gestionnaires de nœuds sont
enregistr&eacute;s aupr&egrave;s du gestionnaire de ressources.
Cr&eacute;er un cluster avec un mot de passe administrateur &agrave; l'aide de l'interface de
ligne de commande Serengeti
Lorsque vous cr&eacute;ez un cluster, vous pouvez attribuer un mot de passe administrateur personnalis&eacute; &agrave; tous les
nœuds du cluster. Les mots de passe d'administrateur personnalis&eacute;s vous permettent de vous connecter
directement aux nœuds au lieu d'avoir &agrave; vous connecter d'abord au serveur de gestion Serengeti.
Pr&eacute;requis
n
D&eacute;ployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources ad&eacute;quates allou&eacute;es ex&eacute;cuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par d&eacute;faut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
VMware, Inc.
67
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'interface de ligne de commande Serengeti.
2
Ex&eacute;cutez la commande cluster create et incluez le param&egrave;tre --password.
cluster create --name cluster_name --password
3
Entrez votre mot de passe personnalis&eacute;, puis entrez-le &agrave; nouveau.
Les mots de passe doivent contenir 8 &agrave; 20 caract&egrave;res, utiliser uniquement des caract&egrave;res ASCII inf&eacute;rieurs
visibles (pas d'espaces) et comporter au moins une lettre majuscule (A - Z), une lettre minuscule (a - z),
un chiffre (0 - 9) et l'un des caract&egrave;res sp&eacute;ciaux suivants : _, @, #, $, %, ^, &amp;, *
Votre mot de passe personnalis&eacute; est attribu&eacute; &agrave; tous les nœuds du cluster.
Cr&eacute;er un cluster avec une distribution disponible &agrave; l'aide de l'interface de ligne
de commande Serengeti
Vous pouvez s&eacute;lectionner la distribution Hadoop &agrave; utiliser lorsque vous d&eacute;ployez un cluster. Si vous ne
sp&eacute;cifiez pas de distribution Hadoop, le cluster obtenu est cr&eacute;&eacute; &agrave; l'aide de la distribution par d&eacute;faut, Apache
Bigtop.
Pr&eacute;requis
n
D&eacute;ployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources ad&eacute;quates allou&eacute;es ex&eacute;cuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par d&eacute;faut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'Serengeti CLI.
2
Ex&eacute;cutez la commande cluster create et incluez le param&egrave;tre --distro.
La valeur du param&egrave;tre --distro doit correspondre &agrave; un nom de distribution affich&eacute; par la commande
distro list.
REMARQUE Pour cr&eacute;er un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou
Pivotal PHD 1.1 ou version ult&eacute;rieure, vous devez configurer un DNS et un FQDN valides pour le trafic
r&eacute;seau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la r&eacute;solution FQDN/IP
dans un sens et dans l'autre, le processus de cr&eacute;ation du cluster risque d'&eacute;chouer ou le cluster est cr&eacute;&eacute;
mais il ne fonctionne pas.
L'exemple d&eacute;ploie un cluster avec la distribution Cloudera CDH :
cluster create --name clusterName --distro cdh
L'exemple cr&eacute;e un cluster personnalis&eacute; nomm&eacute; mycdh qui utilise la distribution Hadoop CDH5 et qui est
configur&eacute; selon l'exemple de fichier de sp&eacute;cification de
cluster /opt/serengeti/samples/default_cdh4_ha_and_federation_hadoop_cluster.json. Dans cet
exemple de fichier, nameservice0 et nameservice1 sont f&eacute;d&eacute;r&eacute;s. Autrement dit, nameservice0 et
nameservice1 sont ind&eacute;pendants et ne n&eacute;cessitent pas d'&ecirc;tre coordonn&eacute;s entre eux. Les nœuds
NameNode du groupe de nœuds nameservice0 prennent en charge HDFS2 HA. Dans Serengeti, les
noms de groupes de nœuds de noms sont utilis&eacute;s comme noms de service pour HDFS2.
cluster create --name mycdh --distro cdh5 --specFile
/opt/serengeti/samples/default_cdh5_ha_hadoop_cluster.json
68
VMware, Inc.
Chapitre 5 Cr&eacute;ation de clusters Hadoop et HBase
Cr&eacute;er un cluster &agrave; plusieurs r&eacute;seaux &agrave; l'aide de l'interface de ligne de
commande Serengeti
Lorsque vous cr&eacute;ez un cluster, vous pouvez distribuer la gestion, le syst&egrave;me de fichiers HDFS et le trafic
MapReduce pour s&eacute;parer les r&eacute;seaux. Vous pouvez souhaiter utiliser des r&eacute;seaux distincts pour am&eacute;liorer
les performances ou isoler le trafic &agrave; des fins de s&eacute;curit&eacute;.
Pour optimiser les performances, utilisez le m&ecirc;me r&eacute;seau pour le trafic HDFS et MapReduce dans les
clusters Hadoop et Hadoop+HBase. Les clusters HBase utilisent le r&eacute;seau HDFS pour le trafic li&eacute; aux
services HBase Master et HBase RegionServer.
IMPORTANT Vous ne pouvez pas configurer plusieurs r&eacute;seaux pour les clusters qui utilisent la distribution
Hadoop MapR.
Pr&eacute;requis
n
D&eacute;ployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources ad&eacute;quates allou&eacute;es ex&eacute;cuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par d&eacute;faut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'Serengeti CLI.
2
Ex&eacute;cutez la commande cluster create et incluez les param&egrave;tres --networkName, --hdfsNetworkName et
--mapredNetworkName.
cluster create --name cluster_name --networkName management_network
[--hdfsNetworkName hdfs_network] [--mapredNetworkName mapred_network]
Si vous omettez l'un des param&egrave;tres r&eacute;seau facultatifs, le trafic associ&eacute; &agrave; ce param&egrave;tre r&eacute;seau est
achemin&eacute; sur le r&eacute;seau de gestion sp&eacute;cifi&eacute; par le param&egrave;tre --networkName.
REMARQUE Pour cr&eacute;er un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou
Pivotal PHD 1.1 ou version ult&eacute;rieure, vous devez configurer un DNS et un FQDN valides pour le trafic
r&eacute;seau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la r&eacute;solution FQDN/IP
dans un sens et dans l'autre, le processus de cr&eacute;ation du cluster risque d'&eacute;chouer ou le cluster est cr&eacute;&eacute;
mais il ne fonctionne pas.
La gestion du cluster, le syst&egrave;me de fichiers HDFS et le trafic MapReduce sont r&eacute;partis entre les r&eacute;seaux
sp&eacute;cifi&eacute;s.
Cr&eacute;er un cluster avec ressources assign&eacute;es &agrave; l'aide de l'interface de ligne de
commande Serengeti
Par d&eacute;faut, lorsque vous utilisez Serengeti pour d&eacute;ployer un cluster Hadoop, le cluster peut contenir tout ou
partie des ressources disponibles : le pool de ressources vCenter Server pour le CPU et la m&eacute;moire des
machines virtuelles, les banques de donn&eacute;es pour le stockage de la machine virtuelle et un r&eacute;seau. Vous
pouvez affecter les ressources que le cluster utilise en sp&eacute;cifiant des pools de ressources sp&eacute;cifiques, des
banques de donn&eacute;es et/ou un r&eacute;seau lorsque vous cr&eacute;ez le cluster Hadoop.
Pr&eacute;requis
n
D&eacute;ployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources ad&eacute;quates allou&eacute;es ex&eacute;cuter le cluster Hadoop.
VMware, Inc.
69
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
n
Pour utiliser une distribution Hadoop autre que la distribution par d&eacute;faut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'Serengeti CLI.
2
Ex&eacute;cutez la commande cluster create et sp&eacute;cifiez tout ou partie des param&egrave;tres de ressource de la
commande.
Cet exemple d&eacute;ploie un cluster nomm&eacute; myHadoop sur la banque de donn&eacute;es myDS, sous le pool de
ressources myRP, et utilise le r&eacute;seau myNW pour les communications des machines virtuelles.
cluster create --name myHadoop --rpNames myRP --dsNames myDS --networkName myNW
Cr&eacute;er un cluster avec un nombre quelconque de nœuds master, worker et
client
Vous pouvez cr&eacute;er un cluster Hadoop avec un nombre quelconque de nœuds master, worker et client.
Pr&eacute;requis
n
D&eacute;ployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources ad&eacute;quates allou&eacute;es ex&eacute;cuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par d&eacute;faut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Proc&eacute;dure
1
Cr&eacute;ez un fichier de sp&eacute;cification de cluster pour d&eacute;finir les caract&eacute;ristiques du cluster, telles que les
groupes de nœuds.
REMARQUE Pour cr&eacute;er un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou
Pivotal PHD 1.1 ou version ult&eacute;rieure, vous devez configurer un DNS et un FQDN valides pour le trafic
r&eacute;seau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la r&eacute;solution FQDN/IP
dans un sens et dans l'autre, le processus de cr&eacute;ation du cluster risque d'&eacute;chouer ou le cluster est cr&eacute;&eacute;
mais il ne fonctionne pas.
Dans cet exemple, le cluster a une machine virtuelle ma&icirc;tre de taille MOYENNE, cinq machines
virtuelles du travailleur de taille PETITE et une machine virtuelle cliente de taille PETITE. L'attribut
instanceNum configure le nombre de machines virtuelles d'un nœud.
{
&quot;nodeGroups&quot; : [
{
&quot;name&quot;: &quot;master&quot;,
&quot;roles&quot;: [
&quot;hadoop_namenode&quot;,
&quot;hadoop_jobtracker&quot;
],
&quot;instanceNum&quot;: 1,
&quot;instanceType&quot;: &quot;MEDIUM&quot;
},
{
&quot;name&quot;: &quot;worker&quot;,
&quot;roles&quot;: [
70
VMware, Inc.
Chapitre 5 Cr&eacute;ation de clusters Hadoop et HBase
&quot;hadoop_datanode&quot;,
&quot;hadoop_tasktracker&quot;
],
&quot;instanceNum&quot;: 5,
&quot;instanceType&quot;: &quot;SMALL&quot;
},
{
&quot;name&quot;: &quot;client&quot;,
&quot;roles&quot;: [
&quot;hadoop_client&quot;,
&quot;hive&quot;,
&quot;hive_server&quot;,
&quot;pig&quot;
],
&quot;instanceNum&quot;: 1,
&quot;instanceType&quot;: &quot;SMALL&quot;
}
]
}
2
Acc&eacute;dez &agrave; l'Serengeti CLI.
3
Ex&eacute;cutez la commande cluster create et sp&eacute;cifiez le fichier de sp&eacute;cification de cluster.
cluster create --name cluster_name --specFile directory_path/spec_filename
Cr&eacute;er un cluster Hadoop ou HBase personnalis&eacute; avec l'interface de ligne de
commande Serengeti
Vous pouvez cr&eacute;er des clusters personnalis&eacute;s en fonction de vos exigences, y compris le nombre de nœuds,
la taille du disque et de la RAM de la machine virtuelle, le nombre de CPU, etc.
Le package Serengeti inclut plusieurs exemples annot&eacute;s de fichier de sp&eacute;cification de cluster que vous
pouvez utiliser comme mod&egrave;les lorsque vous cr&eacute;ez vos fichiers de sp&eacute;cification personnalis&eacute;s.
n
Dans le serveur de gestion Serengeti, les exemples de fichiers de sp&eacute;cification de cluster se trouvent
dans /opt/serengeti/samples.
n
Si vous utilisez le client d'interface de ligne de commande distant Serengeti, les exemples de fichiers de
sp&eacute;cification sont dans le r&eacute;pertoire client.
La modification d'un r&ocirc;le de groupe de nœuds peut entra&icirc;ner l'&eacute;chec du processus de cr&eacute;ation de cluster.
Par exemple, comme les clusters faisant l'objet de travaux requi&egrave;rent un NameNode, s'il n'existe aucun
nœud NameNode apr&egrave;s que vous avez modifi&eacute; les r&ocirc;les des groupes de nœuds, vous ne pouvez pas cr&eacute;er
de cluster.
Pr&eacute;requis
n
D&eacute;ployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources ad&eacute;quates allou&eacute;es ex&eacute;cuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par d&eacute;faut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Proc&eacute;dure
1
Cr&eacute;ez un fichier de sp&eacute;cification de cluster pour d&eacute;finir les caract&eacute;ristiques du cluster, telles que les
groupes de nœuds.
2
Acc&eacute;dez &agrave; l'interface de ligne de commande Serengeti.
VMware, Inc.
71
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
3
Ex&eacute;cutez la commande cluster create et sp&eacute;cifiez le fichier de sp&eacute;cification de cluster.
Utilisez le chemin d'acc&egrave;s complet pour sp&eacute;cifier le fichier.
cluster create --name cluster_name --specFile full_path/spec_filename
REMARQUE Pour cr&eacute;er un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou
Pivotal PHD 1.1 ou version ult&eacute;rieure, vous devez configurer un DNS et un FQDN valides pour le trafic
r&eacute;seau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la r&eacute;solution FQDN/IP
dans un sens et dans l'autre, le processus de cr&eacute;ation du cluster risque d'&eacute;chouer ou le cluster est cr&eacute;&eacute;
mais il ne fonctionne pas.
72
VMware, Inc.
Gestion des clusters Hadoop et
HBase
6
Vous pouvez utiliser vSphere Web Client pour d&eacute;marrer et arr&ecirc;ter votre cluster Big Data, et pour modifier la
configuration du cluster. Vous pouvez &eacute;galement g&eacute;rer un cluster &agrave; l'aide de l'interface de ligne de
commande Serengeti.
AVERTISSEMENT N'utilisez pas les fonctions de gestion de vSphere telles que la migration de nœuds de
cluster vers d'autres h&ocirc;tes pour les clusters cr&eacute;&eacute;s avec Big Data Extensions. L'utilisation de ces fonctions de
gestion en dehors de l'environnement Big Data Extensions peut vous emp&ecirc;cher d'effectuer certaines
op&eacute;rations de Big Data Extensions telles que la r&eacute;cup&eacute;ration de d&eacute;faillances de disque.
Ce chapitre aborde les rubriques suivantes :
n
&laquo; D&eacute;marrer et arr&ecirc;ter un cluster avec l'interface de ligne de commande Serengeti &raquo;, page 74
n
&laquo; Agrandir un cluster avec l'interface de ligne de commande Serengeti &raquo;, page 74
n
&laquo; Mettre &agrave; l'&eacute;chelle le CPU et la RAM avec l'interface de ligne de commande Serengeti &raquo;, page 75
n
&laquo; Reconfigurer un cluster avec l'interface de ligne de commande Serengeti &raquo;, page 75
n
&laquo; Supprimer un cluster avec l'interface de ligne de commande Serengeti &raquo;, page 78
n
&laquo; &Agrave; propos de vSphere High Availability et de vSphere Fault Tolerance &raquo;, page 78
n
&laquo; Reconfigurer un groupe de nœuds avec l'interface de ligne de commande Serengeti &raquo;, page 78
n
&laquo; D&eacute;velopper un cluster &agrave; l'aide de l'interface de ligne de commande &raquo;, page 78
n
&laquo; R&eacute;cup&eacute;rer d'une d&eacute;faillance disque avec le client d'interface de ligne de commande Serengeti &raquo;,
page 80
n
&laquo; Effectuer la r&eacute;cup&eacute;ration d'une machine virtuelle de nœud de cluster &raquo;, page 80
n
&laquo; Passer en mode maintenance pour effectuer la sauvegarde et la restauration &agrave; l'aide du client
d'interface de ligne de commande Serengeti &raquo;, page 81
VMware, Inc.
73
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
D&eacute;marrer et arr&ecirc;ter un cluster avec l'interface de ligne de commande
Serengeti
Vous pouvez arr&ecirc;ter un cluster en cours d'ex&eacute;cution et d&eacute;marrer un cluster arr&ecirc;t&eacute; &agrave; partir de l'interface de
ligne de commande Serengeti. Lorsque vous d&eacute;marrez ou arr&ecirc;tez un cluster via Cloudera Manager ou
Ambari, seuls les services sont d&eacute;marr&eacute;s ou arr&ecirc;t&eacute;s. Cependant, lorsque vous d&eacute;marrez ou arr&ecirc;tez un cluster
via Big Data Extensions, non seulement les services, mais &eacute;galement les machines virtuelles sont d&eacute;marr&eacute;s
ou arr&ecirc;t&eacute;s.
Pr&eacute;requis
n
V&eacute;rifiez que le cluster est provisionn&eacute;.
n
V&eacute;rifiez que suffisamment de ressources, notamment en termes de CPU et de m&eacute;moire, sont
disponibles pour d&eacute;marrer les machines virtuelles du cluster Hadoop.
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'interface de ligne de commande Serengeti.
2
Ex&eacute;cutez la commande cluster stop.
cluster stop –-name name_of_cluster_to_stop
3
Ex&eacute;cutez la commande cluster start.
cluster start –-name name_of_cluster_to_start
Agrandir un cluster avec l'interface de ligne de commande Serengeti
Vous sp&eacute;cifiez le nombre de nœuds du cluster lorsque vous cr&eacute;ez des clusters Hadoop et HBase. Par la suite,
vous pouvez agrandir le cluster en augmentant le nombre de nœuds worker et le nombre de nœuds client.
IMPORTANT M&ecirc;me si vous avez modifi&eacute; le mot de passe utilisateur sur les nœuds d'un cluster, le mot de
passe modifi&eacute; n'est pas utilis&eacute; pour les nouveaux nœuds cr&eacute;&eacute;s par l'op&eacute;ration d'agrandissement du cluster.
Si vous avez d&eacute;fini le mot de passe initial de l'administrateur pour le cluster lorsque vous avez cr&eacute;&eacute; le
cluster, ce mot de passe est utilis&eacute; pour les nouveaux nœuds. Si vous n'avez pas d&eacute;fini le mot de passe initial
de l'administrateur pour le cluster lorsque vous avez cr&eacute;&eacute; le cluster, les nouveaux mots de passe al&eacute;atoires
sont utilis&eacute;s pour les nouveaux nœuds.
Pr&eacute;requis
V&eacute;rifiez que le cluster a d&eacute;marr&eacute;.
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'interface de ligne de commandeSerengeti.
2
Ex&eacute;cutez la commande cluster resize.
Pour node_type, sp&eacute;cifiez worker ou client. Pour la valeur num_nodes du param&egrave;treinstanceNum, utilisez
tout nombre sup&eacute;rieur au nombre actuel d'instances node_type.
cluster resize --name name_of_cluster_to_resize --nodeGroup node_type --instanceNum num_nodes
74
VMware, Inc.
Chapitre 6 Gestion des clusters Hadoop et HBase
Mettre &agrave; l'&eacute;chelle le CPU et la RAM avec l'interface de ligne de
commande Serengeti
Vous pouvez augmenter ou r&eacute;duire la capacit&eacute; de calcul et la RAM d'un cluster afin d'emp&ecirc;cher la
contention des ressources m&eacute;moire des t&acirc;ches en cours d'ex&eacute;cution.
Serengeti vous permet d'ajuster les ressources de calcul et de la m&eacute;moire, sans augmenter la charge de
travail sur le nœud master. Si l'augmentation ou la diminution du CPU d'un cluster n'aboutit pas pour un
nœud, ce qui est g&eacute;n&eacute;ralement d&ucirc; &agrave; l'insuffisance des ressources disponibles, le nœud est r&eacute;tabli &agrave; sa valeur
de CPU originale. Si l'augmentation ou la diminution de la RAM d'un cluster n'aboutit pas pour un nœud,
ce qui est g&eacute;n&eacute;ralement d&ucirc; &agrave; l'insuffisance des ressources, le disque d'&eacute;change conserve sa nouvelle valeur.
Le disque n'est pas r&eacute;tabli &agrave; la valeur d'origine de la m&eacute;moire.
M&ecirc;me si tous les types de nœuds prennent en charge la mise &agrave; l'&eacute;chelle du CPU et de la RAM, ne mettez pas
&agrave; l'&eacute;chelle le nœud master d'un cluster, carSerengeti arr&ecirc;te la machine virtuelle lors du processus de mise &agrave;
l'&eacute;chelle.
Les valeurs maximales pour le CPU et la RAM d&eacute;pendent de la version de la machine virtuelle.
Tableau 6‑1. Valeurs maximales pour le CPU et la RAM
Version de machine virtuelle
Nombre maximal de CPU
RAM maximale, en Go
7
8
255
8
32
1 011
9
64
1 011
10
64
1 011
Pr&eacute;requis
D&eacute;marrez le cluster s'il n'est pas en cours d'ex&eacute;cution.
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'interface de ligne de commande Serengeti.
2
Ex&eacute;cutez la commande cluster resize pour modifier le nombre de CPU ou la quantit&eacute; de RAM d'un
cluster.
n
n
Les types de nœud sont travailleur ou client.
Sp&eacute;cifiez l'un et/ou l'autre des param&egrave;tres de mise &agrave; l'&eacute;chelle : --cpuNumPerNode ou--
memCapacityMbPerNode.
cluster resize --name cluster_name --nodeGroup node_type [--cpuNumPerNode vCPUs_per_node]
[--memCapacityMbPerNode memory_per_node]
Reconfigurer un cluster avec l'interface de ligne de commande
Serengeti
Vous pouvez reconfigurer tout cluster big data que vous cr&eacute;ez avec Big Data Extensions.
La configuration des clusters est sp&eacute;cifi&eacute;e par des attributs dans des fichiers de configuration XML de
distribution Hadoop tels que : core-site.xml, hdfs-site.xml, mapred-site.xml, hadoop-env.sh, yarn-env.sh,
yarn-site.sh et hadoop-metrics.properties.
Pour en savoir plus sur le fichier de configuration de format JSON Serengeti et les attributs associ&eacute;s dans les
fichiers de distribution Hadoop, reportez-vous au Guide de l'interface de ligne de commande de VMware vSphere
Big Data Extensions.
VMware, Inc.
75
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Pour en savoir plus sur le fichier de configuration de format JSON Serengeti et les attributs associ&eacute;s dans les
fichiers de distribution Hadoop, reportez-vous &agrave; Chapitre 8, &laquo; R&eacute;f&eacute;rence de sp&eacute;cification de cluster &raquo;,
page 87.
REMARQUE Utilisez toujours la commande cluster config pour modifier les param&egrave;tres sp&eacute;cifi&eacute;s par les
fichiers de configuration. Si vous modifiez ces fichiers manuellement, vos modifications seront effac&eacute;es si la
machine virtuelle red&eacute;marre ou si vous utilisez les commandes cluster config, cluster start, cluster
stop ou cluster resize.
Proc&eacute;dure
1
Utilisez la commande cluster export pour exporter le fichier de sp&eacute;cification pour le cluster que vous
souhaitez reconfigurer.
cluster export --name
2
cluster_name --specFile file_path/cluster_spec_file_name
Option
Description
cluster_name
Nom du cluster que vous souhaitez reconfigurer.
file_path
Le chemin du syst&egrave;me de fichiers vers lequel vous voulez exporter le
fichier de sp&eacute;cification.
cluster_spec_file_name
Le nom de l'&eacute;tiquette &agrave; attribuer au fichier de sp&eacute;cification du cluster
export&eacute;.
Modifiez les informations de configuration situ&eacute;es pr&egrave;s de la fin du fichier de sp&eacute;cification du cluster
export&eacute;.
Si vous mod&eacute;lisez votre fichier de configuration sur des fichiers de configuration XML Hadoop
existants, utilisez l'outil de conversion convert-hadoop-conf.rb pour convertir ces fichiers au format
JSON requis.
…
&quot;configuration&quot;: {
&quot;hadoop&quot;: {
&quot;core-site.xml&quot;: {
// check for all settings at http://hadoop.apache.org/common/docs/stable/coredefault.html
// note: any value (int, float, boolean, string) must be enclosed in double quotes
and here is a sample:
// &quot;io.file.buffer.size&quot;: &quot;4096&quot;
},
&quot;hdfs-site.xml&quot;: {
// check for all settings at http://hadoop.apache.org/common/docs/stable/hdfsdefault.html
},
&quot;mapred-site.xml&quot;: {
// check for all settings at http://hadoop.apache.org/common/docs/stable/mapreddefault.html
},
&quot;hadoop-env.sh&quot;: {
// &quot;HADOOP_HEAPSIZE&quot;: &quot;&quot;,
// &quot;HADOOP_NAMENODE_OPTS&quot;: &quot;&quot;,
// &quot;HADOOP_DATANODE_OPTS&quot;: &quot;&quot;,
// &quot;HADOOP_SECONDARYNAMENODE_OPTS&quot;: &quot;&quot;,
// &quot;HADOOP_JOBTRACKER_OPTS&quot;: &quot;&quot;,
// &quot;HADOOP_TASKTRACKER_OPTS&quot;: &quot;&quot;,
// &quot;HADOOP_CLASSPATH&quot;: &quot;&quot;,
// &quot;JAVA_HOME&quot;: &quot;&quot;,
76
VMware, Inc.
Chapitre 6 Gestion des clusters Hadoop et HBase
// &quot;PATH&quot;: &quot;&quot;,
},
&quot;log4j.properties&quot;: {
// &quot;hadoop.root.logger&quot;: &quot;DEBUG, DRFA &quot;,
// &quot;hadoop.security.logger&quot;: &quot;DEBUG, DRFA &quot;,
},
&quot;fair-scheduler.xml&quot;: {
// check for all settings at
http://hadoop.apache.org/docs/stable/fair_scheduler.html
// &quot;text&quot;: &quot;the full content of fair-scheduler.xml in one line&quot;
},
&quot;capacity-scheduler.xml&quot;: {
// check for all settings at
http://hadoop.apache.org/docs/stable/capacity_scheduler.html
}
}
}
…
3
(Facultatif) Si les fichiers JAR de votre distribution Hadoop ne se trouvent pas dans le r&eacute;pertoire
$HADOOP_HOME/lib, ajoutez le chemin complet du fichier JAR dans $HADOOP_CLASSPATH au fichier de
sp&eacute;cification de cluster.
Cette op&eacute;ration permet aux d&eacute;mons Hadoop de localiser les fichiers JAR de distribution.
Par exemple, les fichiers JAR Cloudera CDH3 Hadoop Fair Scheduler se trouvent
sous /usr/lib/hadoop/contrib/fairscheduler/. Ajoutez ce qui suit au fichier de sp&eacute;cification du cluster
pour permettre &agrave; Hadoop d'utiliser les fichiers JAR.
…
&quot;configuration&quot;: {
&quot;hadoop&quot;: {
&quot;hadoop-env.sh&quot;: {
&quot;HADOOP_CLASSPATH&quot;: &quot;/usr/lib/hadoop/contrib/fairscheduler/*:$HADOOP_CLASSPATH&quot;
},
&quot;mapred-site.xml&quot;: {
&quot;mapred.jobtracker.taskScheduler&quot;: &quot;org.apache.hadoop.mapred.FairScheduler&quot;
…
},
&quot;fair-scheduler.xml&quot;: {
…
}
}
}
…
4
Acc&eacute;dez &agrave; l'Serengeti CLI.
5
Ex&eacute;cutez la commande cluster config pour appliquer la nouvelle configuration Hadoop.
cluster config --name cluster_name --specFile file_path/cluster_spec_file_name
6
VMware, Inc.
(Facultatif) R&eacute;initialisez un attribut de configuration existant &agrave; sa valeur par d&eacute;faut.
a
Supprimez l'attribut de la section de configuration du fichier de configuration ou commentez
l'attribut en utilisant deux barres obliques invers&eacute;es (//).
b
Ex&eacute;cutez &agrave; nouveau la commande cluster config.
77
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Supprimer un cluster avec l'interface de ligne de commande Serengeti
Vous pouvez supprimer un cluster dont vous n'avez plus besoin, qu'il soit en cours d'ex&eacute;cution ou pas.
Quand un cluster est supprim&eacute;, l'ensemble de ses machines virtuelles et pools de ressources l'est &eacute;galement.
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'interface de ligne de commandeSerengeti.
2
Ex&eacute;cutez la commande cluster delete.
cluster delete --name cluster_name
&Agrave; propos de vSphere High Availability et de vSphere Fault Tolerance
Le serveur de gestion Serengeti tire parti de la haute disponibilit&eacute; vSphere pour prot&eacute;ger la machine
virtuelle du nœud Hadoop master, qui peut &ecirc;tre surveill&eacute;e par vSphere.
Lorsque un service Hadoop NameNode ou JobTracker s'arr&ecirc;te de mani&egrave;re inattendue, vSphere red&eacute;marre la
machine virtuelle Hadoop dans un autre h&ocirc;te afin de r&eacute;duire la p&eacute;riode d'interruption non planifi&eacute;e. Si
vSphere Fault Tolerance est configur&eacute; et que la machine virtuelle du nœud master s'arr&ecirc;te de mani&egrave;re
inattendue en raison du basculement ou de la perte de connectivit&eacute; r&eacute;seau d'un h&ocirc;te, le nœud secondaire est
utilis&eacute;, sans provoquer d'interruption de service.
Reconfigurer un groupe de nœuds avec l'interface de ligne de
commande Serengeti
Vous pouvez reconfigurer les groupes de nœuds en modifiant les donn&eacute;es de configuration des groupes de
nœuds du fichier de sp&eacute;cification de cluster associ&eacute;. Lorsque vous configurez un groupe de nœuds, sa
configuration remplace toute configuration de niveau cluster du m&ecirc;me nom.
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'interface de ligne de commandeSerengeti.
2
Ex&eacute;cutez la commandecluster export pour exporter le fichier de sp&eacute;cification de cluster du cluster.
cluster export --name cluster_name --specFile path_name/spec_file_name
3
Dans le fichier de sp&eacute;cification, modifiez la section de configuration du groupe de nœuds avec le m&ecirc;me
contenu que la configuration de niveau cluster.
4
Ajoutez la configuration Hadoop personnalis&eacute;e au groupe de nœuds que vous voulez reconfigurer.
5
Ex&eacute;cutez la commande cluster config pour appliquer la nouvelle configuration Hadoop.
cluster config --name cluster_name --specFile path_name/spec_file_name
D&eacute;velopper un cluster &agrave; l'aide de l'interface de ligne de commande
Vous pouvez d&eacute;velopper un cluster Big Data existant en ajoutant des groupes de nœuds suppl&eacute;mentaires.
Proc&eacute;dure
1
78
Acc&eacute;dez &agrave; l'Serengeti CLI.
VMware, Inc.
Chapitre 6 Gestion des clusters Hadoop et HBase
2
Modifiez le fichier de sp&eacute;cification du cluster afin qu'il inclue les nouveaux groupes de nœuds que vous
souhaitez ajouter au cluster.
Lors de la modification du fichier de sp&eacute;cification du cluster pour d&eacute;velopper le cluster, gardez les
&eacute;l&eacute;ments suivants en t&ecirc;te.
n
Les nouveaux groupes de nœuds d&eacute;velopp&eacute;s ne doivent pas avoir les m&ecirc;mes noms que les groupes
de nœuds existants dans le cluster.
n
Veillez &agrave; utiliser une syntaxe correcte lors de la modification du fichier de sp&eacute;cification du cluster.
Chaque &eacute;l&eacute;ment et sa valeur de configuration doivent &ecirc;tre corrects, sans quoi l'op&eacute;ration de
d&eacute;veloppement &eacute;chouera.
Cet exemple illustre une configuration nodeGroups mise &agrave; jour &agrave; partir du fichier de sp&eacute;cification de
cluster plus large.
{
&quot;nodeGroups&quot;:[
{
&quot;name&quot;: &quot;master1&quot;,
&quot;roles&quot;: [
&quot;basic&quot;
],
&quot;instanceNum&quot;: 1,
&quot;cpuNum&quot;: 2,
&quot;memCapacityMB&quot;: 3768,
&quot;storage&quot;: {
&quot;type&quot;: &quot;SHARED&quot;,
&quot;sizeGB&quot;: 10
},
&quot;haFlag&quot;: &quot;on&quot;
},
{
&quot;name&quot;: &quot;worker1&quot;,
&quot;roles&quot;: [
&quot;basic&quot;
],
&quot;instanceNum&quot;: 1,
&quot;cpuNum&quot;: 2,
&quot;memCapacityMB&quot;: 3768,
&quot;storage&quot;: {
&quot;type&quot;: &quot;LOCAL&quot;,
&quot;sizeGB&quot;: 10
},
&quot;haFlag&quot;: &quot;off&quot;
}
]
}
3
Ex&eacute;cutez la commande cluster expand pour appliquer la nouvelle configuration de cluster avec les
groupes de nœuds d&eacute;velopp&eacute;s.
cluster expand --name cluster_name --specFile path_name/spec_file_name
Si l'op&eacute;ration cluster expand &eacute;choue, l'&eacute;tat du cluster change et devient PROVISION_ERROR. Pour
effectuer une r&eacute;cup&eacute;ration &agrave; partir de cette condition, v&eacute;rifiez que la syntaxe utilis&eacute;e dans le fichier de
sp&eacute;cification du cluster est correcte, puis ex&eacute;cutez de nouveau la commande cluster expand pour
r&eacute;soudre cette d&eacute;faillance.
VMware, Inc.
79
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Suivant
Vous pouvez v&eacute;rifier que les groupes de nœuds ont bien &eacute;t&eacute; ajout&eacute;s au cluster &agrave; l'aide de la commande
cluster list. Reportez-vous &agrave; &laquo; Afficher les clusters provisionn&eacute;s avec l'interface de ligne de commande
Serengeti &raquo;, page 85.
R&eacute;cup&eacute;rer d'une d&eacute;faillance disque avec le client d'interface de ligne
de commande Serengeti
Dans le cas d'une d&eacute;faillance de disque dans un cluster, si le disque ne joue aucun r&ocirc;le de gestion tel que
NameNode, JobTracker, ResourceManager, HMaster ou ZooKeeper, vous pouvez r&eacute;cup&eacute;rer &agrave; l'aide la
commande Serengeti cluster fix.
Big Data Extensions utilise un grand nombre de lecteurs de disque pour le stockage des donn&eacute;es (configur&eacute;s
en tant que JBOD). En cas de d&eacute;faillance de plusieurs disques, le nœud de donn&eacute;es Hadoop peut s'&eacute;teindre.
Big Data Extensions vous permet de r&eacute;cup&eacute;rer des d&eacute;faillances de disque.
Serengeti prend en charge la r&eacute;cup&eacute;ration apr&egrave;s un &eacute;change ou une d&eacute;faillance de disque sur toutes les
distributions Hadoop prises en charge. Les disques sont r&eacute;cup&eacute;r&eacute;s et d&eacute;marr&eacute;s l'un apr&egrave;s l'autre pour &eacute;viter
la perte temporaire de plusieurs nœuds &agrave; la fois. Les nouveaux disques correspondent au type de stockage
et aux strat&eacute;gies de placement des disques d&eacute;faillants qu'ils remplacent.
La distribution MapR ne prend pas en charge la r&eacute;cup&eacute;ration d'une d&eacute;faillance de disque &agrave; l'aide de la
commande cluster fix.
IMPORTANT M&ecirc;me si vous avez modifi&eacute; le mot de passe utilisateur sur les nœuds du cluster, le mot de passe
modifi&eacute; n'est pas utilis&eacute; pour les nouveaux nœuds cr&eacute;&eacute;s par l'op&eacute;ration de r&eacute;cup&eacute;ration de disque. Si vous
avez d&eacute;fini le mot de passe initial de l'administrateur pour le cluster lorsque vous avez cr&eacute;&eacute; le cluster, ce
mot de passe est utilis&eacute; pour les nouveaux nœuds. Si vous n'avez pas d&eacute;fini le mot de passe initial de
l'administrateur pour le cluster lorsque vous avez cr&eacute;&eacute; le cluster, de nouveaux mots de passe al&eacute;atoires sont
utilis&eacute;s pour les nouveaux nœuds.
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'interface de ligne de commandeSerengeti.
2
Ex&eacute;cutez la commande cluster fix.
Le param&egrave;tre nodeGroup est facultatif.
cluster fix --name cluster_name --disk [--nodeGroup nodegroup_name]
Effectuer la r&eacute;cup&eacute;ration d'une machine virtuelle de nœud de cluster
Vous pouvez r&eacute;cup&eacute;rer des machines virtuelles de nœud de cluster qui ont &eacute;t&eacute; dissoci&eacute;es de leur identifiant
d'objet g&eacute;r&eacute; (MOID) ou de leur pool de ressources et de leur nom de machine virtuelle.
Dans de rares situations, l'identifiant d'objet g&eacute;r&eacute; (MOID) d'une machine virtuelle de nœud de cluster peut
changer. Cela peut se produire lorsqu'un h&ocirc;te plante et se r&eacute;enregistre sur vCenter Server. Lorsque BDE ne
parvient pas &agrave; localiser une machine virtuelle de nœud dans vCenter Server par son MOID, l'application
essaie d'abord de localiser le nœud par son pool de ressources et son nom de machine virtuelle. Si cela
s'av&egrave;re impossible, vous pouvez r&eacute;cup&eacute;rer la machine virtuelle de nœud de cluster &agrave; l'aide de la commande
cluster recover.
Proc&eacute;dure
1
80
Acc&eacute;dez &agrave; l'Serengeti CLI.
VMware, Inc.
Chapitre 6 Gestion des clusters Hadoop et HBase
2
Ex&eacute;cutez la commande cluster recover pour mettre &agrave; jour le cluster et r&eacute;cup&eacute;rer la machine virtuelle
de nœud de cluster.
cluster recover
Suivant
Vous pouvez v&eacute;rifier que la machine virtuelle de nœud de cluster a &eacute;t&eacute; r&eacute;cup&eacute;r&eacute;e avec succ&egrave;s.
Passer en mode maintenance pour effectuer la sauvegarde et la
restauration &agrave; l'aide du client d'interface de ligne de commande
Serengeti
Avant d'effectuer les op&eacute;rations de sauvegarde et de restauration, ou d'autres t&acirc;ches de maintenance, vous
devez placer Big Data Extensions en mode maintenance.
Pr&eacute;requis
n
D&eacute;ployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources ad&eacute;quates allou&eacute;es ex&eacute;cuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par d&eacute;faut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Proc&eacute;dure
1
Connectez-vous &agrave; Serengeti Management Server.
2
Ex&eacute;cutez le script /opt/serengeti/sbin/serengeti-maintenance.sh pour placer Big Data Extensions en
mode maintenance ou v&eacute;rifier l'&eacute;tat de maintenance.
serengeti-maintenance.sh on | off | status
Option
Description
activ&eacute;
Active le mode maintenance. Lorsque vous entrez en mode maintenance,
Big Data Extensions continue &agrave; ex&eacute;cuter les t&acirc;ches d&eacute;j&agrave; commenc&eacute;es, mais
ne r&eacute;pond pas aux nouvelles requ&ecirc;tes.
d&eacute;sactiv&eacute;
D&eacute;sactive le mode maintenance et remet Big Data Extensions dans son &eacute;tat
de fonctionnement normal.
Statut
Affiche l'&eacute;tat de maintenance de Big Data Extensions.
n
L'&eacute;tat s&eacute;curis&eacute; indique que les op&eacute;rations de sauvegarde et les autres
t&acirc;ches de maintenance peuvent &ecirc;tre effectu&eacute;es en toute s&eacute;curit&eacute; dans
votre d&eacute;ploiement Big Data Extensions.
n
L'&eacute;tat d&eacute;sactiv&eacute; indique que le mode maintenance a &eacute;t&eacute; d&eacute;sactiv&eacute; et
que les t&acirc;ches de maintenance telles que la sauvegarde et la
restauration ne peuvent pas &ecirc;tre effectu&eacute;es en toute s&eacute;curit&eacute;.
n
L'&eacute;tat activ&eacute; signifie que Big Data Extensions est entr&eacute; en mode
maintenance, mais que les op&eacute;rations de sauvegarde et de restauration
ne peuvent pas encore &ecirc;tre effectu&eacute;es en toute s&eacute;curit&eacute;. Vous devez
attendre que le syst&egrave;me renvoie le message d'&eacute;tat s&eacute;curis&eacute;.
Pour placer votre d&eacute;ploiement Big Data Extensions en mode maintenance, ex&eacute;cutez le script serengetimaintenance.sh avec l'option on.
serengeti-maintenance.sh on
VMware, Inc.
81
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
3
V&eacute;rifiez que Big Data Extensions est en mode maintenance.
Lorsque Big Data Extensions a termin&eacute; toutes les t&acirc;ches qui ont &eacute;t&eacute; envoy&eacute;es, l'&eacute;tat de maintenance
entre en mode s&eacute;curis&eacute;. Ex&eacute;cutez le script serengeti-maintenance.sh avec le param&egrave;tre status de
mani&egrave;re r&eacute;p&eacute;t&eacute;e jusqu'&agrave; obtenir le message d'&eacute;tat du syst&egrave;me s&eacute;curis&eacute;.
serengeti-maintenance.sh status
safe
4
Effectuez les t&acirc;ches de maintenance syst&egrave;me souhait&eacute;es.
5
Une fois que vous avez termin&eacute;, faites repasser Big Data Extensions &agrave; son &eacute;tat de fonctionnement
normal en quittant manuellement le mode maintenance.
serengeti-maintenance.sh off
82
VMware, Inc.
Surveillance de l'environnement Big
Data Extensions
7
Vous pouvez surveiller l'&eacute;tat des clusters d&eacute;ploy&eacute;s sur Serengeti, y compris leurs banques de donn&eacute;es, leurs
r&eacute;seaux et leurs pools de ressources &agrave; l'aide de l'interface de ligne de commande Serengeti. Vous pouvez
&eacute;galement afficher la liste des distributions Hadoop disponibles. Des fonctions de surveillance sont
&eacute;galement disponibles dans vSphere Web Client.
Ce chapitre aborde les rubriques suivantes :
n
&laquo; Afficher la liste des gestionnaires d'applications &agrave; l'aide de l'interface de ligne de commande
Serengeti &raquo;, page 83
n
&laquo; Afficher les distributions Hadoop disponibles avec l'interface de ligne de commande Serengeti &raquo;,
page 84
n
&laquo; Afficher les distributions prises en charge pour tous les gestionnaires d'applications &agrave; l'aide de
l'interface de ligne de commande Serengeti &raquo;, page 84
n
&laquo; Afficher les configurations ou les r&ocirc;les pour le gestionnaire d'applications et la distribution &agrave; l'aide
de l'interface de ligne de commande Serengeti &raquo;, page 84
n
&laquo; Afficher les clusters provisionn&eacute;s avec l'interface de ligne de commande Serengeti &raquo;, page 85
n
&laquo; Afficher les banques de donn&eacute;es avec l'interface de ligne de commande Serengeti &raquo;, page 85
n
&laquo; Afficher les r&eacute;seaux avec l'interface de ligne de commande Serengeti &raquo;, page 86
n
&laquo; Afficher les pools de ressources avec l'interface de ligne de commandeSerengeti &raquo;, page 86
Afficher la liste des gestionnaires d'applications &agrave; l'aide de l'interface
de ligne de commande Serengeti
Vous pouvez utiliser la commande appManager list pour afficher les gestionnaires d'applications qui sont
install&eacute;s sur l'environnement Big Data Extensions.
Pr&eacute;requis
V&eacute;rifiez que vous &ecirc;tes connect&eacute; &agrave; un gestionnaire d'applications.
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'interface de ligne de commande Serengeti.
2
Ex&eacute;cutez la commande appmanager list.
appmanager list
La commande retourne la liste de tous les gestionnaires d'applications install&eacute;s sur l'environnement
Big Data Extensions.
VMware, Inc.
83
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Afficher les distributions Hadoop disponibles avec l'interface de ligne
de commande Serengeti
Les distributions prises en charge sont celles qui le sont par Big Data Extensions. Les distributions
disponibles sont celles qui ont &eacute;t&eacute; ajout&eacute;es &agrave; votre environnement Big Data Extensions. Vous utilisez la
commande distro list pour afficher la liste des distributions Hadoop disponibles dans votre d&eacute;ploiement
Serengeti. Lorsque vous cr&eacute;ez des clusters, vous pouvez utiliser toute distribution Hadoop disponible.
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'interface de ligne de commande Serengeti.
2
Ex&eacute;cutez la commande distro list.
Les distributions Hadoop disponibles sont affich&eacute;es, ainsi que leurs packages.
Suivant
Avant d'utiliser une distribution, v&eacute;rifiez qu'elle inclut les services que vous voulez d&eacute;ployer. S'il manque
des services, ajoutez les packages appropri&eacute;s &agrave; la distribution.
Afficher les distributions prises en charge pour tous les gestionnaires
d'applications &agrave; l'aide de l'interface de ligne de commande Serengeti
Les distributions prises en charge sont celles qui le sont par Big Data Extensions. Les distributions
disponibles sont celles qui ont &eacute;t&eacute; ajout&eacute;es &agrave; votre environnement Big Data Extensions. Vous pouvez
afficher la liste des distributions Hadoop qui sont prises en charge dans l'environnement
Big Data Extensions pour d&eacute;terminer si une distribution particuli&egrave;re est disponible pour un gestionnaire
d'applications particulier.
Pr&eacute;requis
V&eacute;rifiez que vous &ecirc;tes connect&eacute; &agrave; un gestionnaire d'applications.
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'interface de ligne de commande Serengeti.
2
Ex&eacute;cutez la commande appmanager list.
appmanager list --name application_manager_name [--distros]
Si vous n'incluez pas le param&egrave;tre --name, la commande retourne la liste de toutes les distributions
Hadoop qui sont prises en charge sur chacun des gestionnaires d'applications de l'environnement
Big Data Extensions.
La commande retourne la liste de toutes les distributions qui sont prises en charge pour le gestionnaire
d'applications du nom que vous sp&eacute;cifiez.
Afficher les configurations ou les r&ocirc;les pour le gestionnaire
d'applications et la distribution &agrave; l'aide de l'interface de ligne de
commande Serengeti
Vous pouvez utiliser la commande appManager list pour afficher les r&ocirc;les ou les configurations Hadoop
d'une distribution et d'un gestionnaire d'applications sp&eacute;cifiques.
La liste des configurations inclut ces configurations que vous pouvez utiliser pour configurer le cluster dans
les sp&eacute;cifications de cluster.
84
VMware, Inc.
Chapitre 7 Surveillance de l'environnement Big Data Extensions
La liste des r&ocirc;les contient les r&ocirc;les que vous pouvez utiliser pour cr&eacute;er un cluster. Vous ne devez pas utiliser
de r&ocirc;les non pris en charge pour cr&eacute;er des clusters dans le gestionnaire d'applications.
Pr&eacute;requis
V&eacute;rifiez que vous &ecirc;tes connect&eacute; &agrave; un gestionnaire d'applications.
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'interface de ligne de commande Serengeti.
2
Ex&eacute;cutez la commande appmanager list.
appmanager list --name application_manager_name [--distro distro_name
(--configurations | --roles) ]
La commande retourne une liste des r&ocirc;les ou configurations Hadoop d'une distribution et d'un gestionnaire
d'applications sp&eacute;cifique.
Afficher les clusters provisionn&eacute;s avec l'interface de ligne de
commande Serengeti
&Agrave; partir de l'Serengeti CLI, vous pouvez afficher les clusters provisionn&eacute;s qui sont dans le d&eacute;ploiement
Serengeti.
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'Serengeti CLI.
2
Ex&eacute;cutez la commande cluster list.
cluster list
Cet exemple affiche un cluster sp&eacute;cifique en incluant le param&egrave;tre --name.
cluster list --name cluster_name
Cet exemple affiche des informations d&eacute;taill&eacute;es sur un cluster sp&eacute;cifique en incluant les param&egrave;tres -name et --detail.
cluster list --name cluster_name –-detail
Afficher les banques de donn&eacute;es avec l'interface de ligne de
commande Serengeti
&Agrave; partir de l'interface de ligne de commande Serengeti, vous pouvez afficher les banques de donn&eacute;es qui
sont dans le d&eacute;ploiement Serengeti.
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'interface de ligne de commandeSerengeti.
2
Ex&eacute;cutez la commande datastore list.
Cet exemple affiche les informations d&eacute;taill&eacute;es en incluant le param&egrave;tre --detail.
datastore list --detail
Cet exemple affiche des informations d&eacute;taill&eacute;es sur une banque de donn&eacute;es sp&eacute;cifique en incluant les
param&egrave;tres --name et --detail.
datastore list --name datastore_name --detail
VMware, Inc.
85
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Afficher les r&eacute;seaux avec l'interface de ligne de commande Serengeti
&Agrave; partir de l'interface de ligne de commande Serengeti, vous pouvez afficher les r&eacute;seaux qui sont dans le
d&eacute;ploiement Serengeti.
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'interface de ligne de commandeSerengeti.
2
Ex&eacute;cutez la commande network list.
Cet exemple affiche les informations d&eacute;taill&eacute;es en incluant le param&egrave;tre --detail.
network list --detail
Cet exemple affiche des informations d&eacute;taill&eacute;es sur un r&eacute;seau sp&eacute;cifique en incluant les param&egrave;tres -name et --detail.
network list --name network_name --detail
Afficher les pools de ressources avec l'interface de ligne de
commande Serengeti
&Agrave; partir de l'interface de ligne de commande Serengeti, vous pouvez afficher les pools de ressources qui
sont dans le d&eacute;ploiement Serengeti.
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'interface de ligne de commandeSerengeti.
2
Ex&eacute;cutez la commande resourcepool list.
Cet exemple affiche les informations d&eacute;taill&eacute;es en incluant le param&egrave;tre --detail.
resourcepool list --detail
Cet exemple affiche des informations d&eacute;taill&eacute;es sur une banque de donn&eacute;es sp&eacute;cifique en incluant les
param&egrave;tres --name et --detail.
resourcepool list --name resourcepool_name –-detail
86
VMware, Inc.
R&eacute;f&eacute;rence de sp&eacute;cification de cluster
8
Pour personnaliser vos clusters, vous devez savoir utiliser les fichiers de sp&eacute;cification de cluster Serengeti et
d&eacute;finir les pr&eacute;requis de cluster avec les diff&eacute;rents attributs et objets. Apr&egrave;s avoir cr&eacute;&eacute; vos fichiers de
configuration, vous pouvez les convertir au format de fichier JSON.
Ce chapitre aborde les rubriques suivantes :
n
&laquo; Conditions requises de fichier de sp&eacute;cification de cluster &raquo;, page 87
n
&laquo; Conditions requises de la d&eacute;finition de cluster &raquo;, page 88
n
&laquo; Fichier de sp&eacute;cification de cluster annot&eacute; &raquo;, page 88
n
&laquo; D&eacute;finitions des attributs de sp&eacute;cification de cluster &raquo;, page 91
n
&laquo; Attributs Hadoop de la liste blanche et de la liste noire &raquo;, page 94
n
&laquo; Convertir les fichiers XML Hadoop en Serengetifichiers JSON &raquo;, page 96
Conditions requises de fichier de sp&eacute;cification de cluster
Un fichier de sp&eacute;cification de cluster est un fichier texte avec les attributs de configuration fournis dans une
structure au format JSON. Les fichiers de sp&eacute;cification de cluster doivent respecter les pr&eacute;requis relatifs &agrave; la
syntaxe, &agrave; l'utilisation des guillemets et aux commentaires.
n
Pour analyser les fichiers de sp&eacute;cification de cluster, Serengeti utilise le processeur JSON Jackson. Pour
les obligations syntaxiques, telles que la strat&eacute;gie de troncation des types &laquo; float &raquo;, consultez la page
wiki &laquo; Jackson JSON Processor &raquo;.
n
Encadrez toujours les valeurs num&eacute;riques par des guillemets. Par exemple :
&quot;mapred.tasktracker.reduce.tasks.maximum&quot; : &quot;2&quot;
Les guillemets garantissent que les entiers sont correctement interpr&eacute;t&eacute;s au lieu d'&ecirc;tre convertis en
nombres &agrave; virgule flottante double pr&eacute;cision, ce qui peut entra&icirc;ner des cons&eacute;quences inattendues.
n
VMware, Inc.
Vous ne pouvez inclure que des commentaires d'une seule ligne en utilisant le symbole di&egrave;se (#) pour
identifier le commentaire.
87
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Conditions requises de la d&eacute;finition de cluster
Les fichiers de sp&eacute;cification de cluster contiennent les d&eacute;finitions de configuration des clusters, telles que
leurs r&ocirc;les et groupes de nœuds. Les d&eacute;finitions de cluster doivent adh&eacute;rer aux conditions requises relatives
aux r&ocirc;les de groupe de nœuds, aux r&ocirc;les de cluster et aux nombres d'instance.
Une d&eacute;finition de cluster ob&eacute;it aux conditions requises suivantes :
n
Les r&ocirc;les de groupe de nœuds ne peuvent pas &ecirc;tre vides. Vous pouvez d&eacute;terminer les noms de r&ocirc;le
valides pour votre distribution Hadoop &agrave; l'aide de la commande distro list.
n
Les r&ocirc;les hadoop_namenode et hadoop_jobtracker doivent &ecirc;tre configur&eacute;s dans un seul groupe de
nœuds.
Dans les clusters Hadoop 2.0, tels que CDH4 ou Pivotal HD, le nombre d'instances peut &ecirc;tre
n
sup&eacute;rieur &agrave; 1 pour cr&eacute;er un cluster HDFS HA ou Federation.
n
n
Sinon, le nombre total d'instances doit &ecirc;tre &eacute;gal &agrave; 1.
Les nombres d'instances de groupe de nœuds doivent &ecirc;tre des nombres positifs.
Fichier de sp&eacute;cification de cluster annot&eacute;
Le fichier de sp&eacute;cification de cluster Serengeti d&eacute;finit les diff&eacute;rents nœuds Hadoop et HBase ainsi que leurs
ressources &agrave; utiliser par le cluster Big Data. Vous pouvez utiliser ce fichier de sp&eacute;cification de cluster annot&eacute;
ainsi que les fichiers exemples du dossier /opt/serengeti/samples comme mod&egrave;les &agrave; &eacute;muler lorsque vous
cr&eacute;ez vos clusters Big Data.
Le code suivant est celui d'un fichier de sp&eacute;cification de cluster classique. Pour les annotations du code,
consultez Tableau 8-1.
1 {
2
&quot;nodeGroups&quot; : [
3
{
4
&quot;name&quot;: &quot;master&quot;,
5
&quot;roles&quot;: [
6
&quot;hadoop_namenode&quot;,
7
&quot;hadoop_resourcemanager&quot;
8
],
9
&quot;instanceNum&quot;: 1,
10
&quot;instanceType&quot;: &quot;LARGE&quot;,
11
&quot;cpuNum&quot;: 2,
12
&quot;memCapacityMB&quot;:4096,
13
&quot;storage&quot;: {
14
&quot;type&quot;: &quot;SHARED&quot;,
15
&quot;sizeGB&quot;: 20
16
17
18
19
20
21
22
23
24
25
26
27
28
88
},
&quot;haFlag&quot;:&quot;on&quot;,
&quot;rpNames&quot;: [
&quot;rp1&quot;
]
},
{
&quot;name&quot;: &quot;data&quot;,
&quot;roles&quot;: [
&quot;hadoop_datanode&quot;
],
&quot;instanceNum&quot;: 3,
&quot;instanceType&quot;: &quot;MEDIUM&quot;,
VMware, Inc.
Chapitre 8 R&eacute;f&eacute;rence de sp&eacute;cification de cluster
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
VMware, Inc.
&quot;cpuNum&quot;: 2,
&quot;memCapacityMB&quot;:2048,
&quot;storage&quot;: {
&quot;type&quot;: &quot;LOCAL&quot;,
&quot;sizeGB&quot;: 50,
&quot;dsNames4Data&quot;: [&quot;DSLOCALSSD&quot;],
&quot;dsNames4System&quot;: [&quot;DSNDFS&quot;]
}
&quot;placementPolicies&quot;: {
&quot;instancePerHost&quot;: 1,
&quot;groupRacks&quot;: {
&quot;type&quot;: &quot;ROUNDROBIN&quot;,
&quot;racks&quot;: [&quot;rack1&quot;, &quot;rack2&quot;, &quot;rack3&quot;]
}
}
},
{
&quot;name&quot;: &quot;compute&quot;,
&quot;roles&quot;: [
&quot;hadoop_nodemanger&quot;
],
&quot;instanceNum&quot;: 6,
&quot;instanceType&quot;: &quot;SMALL&quot;,
&quot;cpuNum&quot;: 2,
&quot;memCapacityMB&quot;:2048,
&quot;storage&quot;: {
&quot;type&quot;: &quot;LOCAL&quot;,
&quot;sizeGB&quot;: 10
}
&quot;placementPolicies&quot;: {
&quot;instancePerHost&quot;: 2,
&quot;groupAssociations&quot;: [{
&quot;reference&quot;: &quot;data&quot;,
&quot;type&quot;: &quot;STRICT&quot;
}]
}
},
{
&quot;name&quot;: &quot;client&quot;,
&quot;roles&quot;: [
&quot;hadoop_client&quot;,
&quot;hive&quot;,
&quot;hive_server&quot;,
&quot;pig&quot;
],
&quot;instanceNum&quot;: 1,
&quot;instanceType&quot;: &quot;SMALL&quot;,
&quot;memCapacityMB&quot;: 2048,
&quot;storage&quot;: {
&quot;type&quot;: &quot;LOCAL&quot;,
&quot;sizeGB&quot;: 10,
&quot;dsNames&quot;: [“ds1”, “ds2”]
}
}
89
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
83 ],
84 &quot;configuration&quot;: {
85 }
86 }
Les &eacute;l&eacute;ments de d&eacute;finition de cluster sont sp&eacute;cifi&eacute;s dans la table.
Tableau 8‑1. Exemple d'annotation de sp&eacute;cification de cluster
90
Ligne(s)
Attribut
Valeur d'exemple
Description
4
nom
ma&icirc;tre
Nom du groupe de nœuds.
5-8
r&ocirc;le
hadoop_namenode,
hadoop_jobtracker
R&ocirc;le du groupe de nœuds.
hadoop_namenode et hadoop_jobtracker sont
d&eacute;ploy&eacute;s sur la machine virtuelle du groupe de
nœuds.
9
instanceNum
1
Nombre d'instances du groupe de nœuds.
Une seule machine virtuelle est cr&eacute;&eacute;e pour le
groupe.
n Il est possible d'avoir plusieurs instances de
hadoop_tasktracker, hadoop_datanode,
hadoop_client, pig et hive.
n Pour les clusters HDFS1, vous ne pouvez
avoir qu'une seule instance de
hadoop_namenode et hadoop_jobtracker.
n Pour les clusters HDFS2, vous pouvez avoir
deux instances hadoop_namenode.
n Avec une distribution MapR, vous pouvez
configurer plusieurs instances de
hadoop_jobtracker.
10
instanceType
GRANDE
Type d'instance de groupe de nœuds.
Les types d'instance sont des sp&eacute;cifications de
machine virtuelle pr&eacute;d&eacute;finies : elles
correspondent &agrave; une combinaison du nombre de
CPU, de la taille de la RAM et de la taille du
stockage. Les valeurs pr&eacute;d&eacute;finies peuvent &ecirc;tre
remplac&eacute;es par le cpuNum, la memCapacityMB et
les attributs de stockage du fichier de
sp&eacute;cification du serveur Serengeti.
11
cpuNum
2
Nombre de CPU par machine virtuelle.
Cet attribut remplace le nombre de CPU virtuels
de la sp&eacute;cification de machine virtuelle
pr&eacute;d&eacute;finie.
12
memCapacityMB
4096
Taille de la RAM, en Mo, par machine virtuelle.
Cet attribut remplace la taille de la RAM de la
sp&eacute;cification de machine virtuelle pr&eacute;d&eacute;finie.
13-16
stockage
Voir les lignes 14-15 des
attributs de stockage
d'un groupe
Configuration requise pour le stockage d'un
nœud de groupes.
14
type
PARTAG&Eacute;
Type de stockage.
Le groupe de nœuds est d&eacute;ploy&eacute; &agrave; l'aide d'un
stockage partag&eacute; uniquement.
15
sizeGB
20
Taille du stockage.
Chaque nœud du groupe de nœuds est d&eacute;ploy&eacute;
avec 20 Go d'espace disque disponible.
17
haFlag
activ&eacute;
Protection HA du groupe de nœuds.
Le groupe de nœuds est d&eacute;ploy&eacute; avec la
protection HA vSphere.
VMware, Inc.
Chapitre 8 R&eacute;f&eacute;rence de sp&eacute;cification de cluster
Tableau 8‑1. Exemple d'annotation de sp&eacute;cification de cluster (suite)
Ligne(s)
Attribut
Valeur d'exemple
Description
18-20
rpNames
rp1
Pools de ressources sous lesquels les machines
virtuelles du groupe de nœuds sont d&eacute;ploy&eacute;es.
Ces pools peuvent &ecirc;tre un tableau de valeurs.
22-36
D&eacute;finition du
groupe de nœuds
pour le nœud de
donn&eacute;es
37-44
placementPolicies
45-57
D&eacute;finition du
groupe de nœuds
pour le nœud de
calcul
58-65
placementPolicies
66-82
D&eacute;finition du
groupe de nœuds
pour le nœud client
83-86
configuration
Voir les lignes 3-21, qui d&eacute;finissent les m&ecirc;mes
attributs pour le nœud master.
Sur les lignes 34-35, les disques de donn&eacute;es sont
plac&eacute;s sur les banques de donn&eacute;es
dsNames4Data et les disques syst&egrave;me sur les
banques de donn&eacute;es dsNames4System.
Voir l'exemple de code
Contraintes de la strat&eacute;gie d'emplacement du
groupe de nœuds de donn&eacute;es.
Vous avez besoin d'au moins trois h&ocirc;tes ESXi,
car il y a trois instances et chaque instance doit
imp&eacute;rativement se trouver sur son propre h&ocirc;te.
Le groupe est provisionn&eacute; sur les h&ocirc;tes sur les
racks 1, 2 et 3 &agrave; l'aide d'un algorithme
ROUNDROBIN.
Voir les lignes 4-16, qui d&eacute;finissent les m&ecirc;mes
attributs pour le nœud master.
Voir l'exemple de code
Contraintes de la strat&eacute;gie d'emplacement du
groupe de nœuds de calcul.
Vous avez besoin d'au moins trois h&ocirc;tes ESXi
pour satisfaire aux exigences de l'instance. Le
groupe de nœuds de calcul fait r&eacute;f&eacute;rence &agrave; un
groupe de nœuds de donn&eacute;es via un type
STRICT. Les deux instances de calcul utilisent
une instance de donn&eacute;es sur l'h&ocirc;te ESXi.
L'association STRICT offre les meilleures
performances.
Voir les d&eacute;finitions de groupe de nœuds
pr&eacute;c&eacute;dentes.
Vide dans l'exemple de
code
Personnalisation de la configuration Hadoop.
D&eacute;finitions des attributs de sp&eacute;cification de cluster
Les d&eacute;finitions des clusters incluent les attributs pour le cluster lui-m&ecirc;me et pour chacun des groupes de
nœuds.
Attributs ext&eacute;rieurs de sp&eacute;cification de cluster
Les attributs ext&eacute;rieurs de sp&eacute;cification de cluster s'appliquent au cluster comme un tout.
Tableau 8‑2. Attributs ext&eacute;rieurs de sp&eacute;cification de cluster
Attribut
Type
Obligatoire/facultatif
Description
nodeGroups
objet
Obligatoire
Une ou plusieurs sp&eacute;cifications de groupe. Voir Tableau 8-3.
configuration
objet
Facultatif
Paires cl&eacute;/valeur de la configuration Hadoop personnalisable.
externalHDFS
string
Facultatif
Valide seulement pour les clusters de calcul uniquement. URI de HDFS
externe.
VMware, Inc.
91
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Attributs et objets de groupes de nœuds de sp&eacute;cification de cluster.
Les attributs et objets de groupes de nœuds s'appliquent &agrave; un seul groupe de nœuds d'un cluster.
Tableau 8‑3. Attributs et objets de groupes de nœuds de sp&eacute;cification de cluster
Attribut
Type
Obligatoire/facultatif
Description
nom
string
Obligatoire
Nom du groupe de nœuds d&eacute;fini par
l'utilisateur.
r&ocirc;les
liste de cha&icirc;nes
Obligatoire
Liste des services ou packages logiciels &agrave;
installer sur la machine virtuelle. Les
valeurs doivent correspondre aux r&ocirc;les
affich&eacute;s par la commande distro list.
instanceNum
integer
Obligatoire
Nombre de machines virtuelles du
groupe de nœuds :
n Entier positif.
n G&eacute;n&eacute;ralement, vous pouvez avoir
plusieurs instances pour
hadoop_tasktracker,
hadoop_datanode, hadoop_client,
pig, et hive.
n Pour les clusters HDFS1, vous ne
pouvez avoir qu'une seule instance
de hadoop_namenode et
hadoop_jobtracker.
n
n
instanceType
string
Facultatif
Pour les clusters HDFS2, vous
pouvez avoir deux instances
hadoop_namenode.
Avec une distribution MapR, vous
pouvez configurer plusieurs
instances de hadoop_jobtracker.
Taille des machines virtuelles du groupe
de nœuds, exprim&eacute;e sous le nom d'un
mod&egrave;le de machine virtuelle pr&eacute;d&eacute;fini.
Reportez-vous &agrave; la section Tableau 8-4.
n PETITE
n MOYENNNE
n GRANDE
n EXTRA_LARGE
Si vous sp&eacute;cifiez les attributs cpuNum,
memCapacityMB ou sizeGB, ils
remplacent la valeur correspondante de
votre mod&egrave;le de machine virtuelle
s&eacute;lectionn&eacute;e pour le groupe de nœuds
applicable.
92
cpuNum
integer
Facultatif
Nombre de CPU par machine virtuelle. Si
la valeur de haFlag est FT, la valeur de
cpuNum doit &ecirc;tre &eacute;gale &agrave; 1.
memCapacityMB
integer
Facultatif
Taille de la RAM, en Mo, par machine
virtuelle.
REMARQUE Lors de l'utilisation de
MapR 3.1, vous devez sp&eacute;cifier un
minimum de 5 120 Mo de capacit&eacute;
m&eacute;moire pour les nœuds zookeeper,
worker et client.
VMware, Inc.
Chapitre 8 R&eacute;f&eacute;rence de sp&eacute;cification de cluster
Tableau 8‑3. Attributs et objets de groupes de nœuds de sp&eacute;cification de cluster (suite)
Attribut
Type
Obligatoire/facultatif
Description
swapRatio
flottant
Facultatif
D&eacute;finit le rapport entre la taille du disque
de permutation du syst&egrave;me
d'exploitation et la taille de la m&eacute;moire.
Par exemple, pour une m&eacute;moire de 4 Go
(4 096 Mo) et une valeur swapRatio de 1;
la taille du disque de permutation sera
de 4 Go. En sp&eacute;cifiant une valeur
swapRatio de 2, la taille du disque de
permutation sera de 8 Go.
Vous pouvez &eacute;galement sp&eacute;cifier une
valeur flottante pour l'attribut
swapRatio. En sp&eacute;cifiant une valeur de
0,5 avec une m&eacute;moire de 4 Go, la taille du
disque de permutation sera de 2 Go.
latencySensitivity
string
Facultatif
Vous pouvez sp&eacute;cifier une valeur
FAIBLE, NORMAL, MOYEN ou &Eacute;LEV&Eacute;
pour le param&egrave;tre de sensibilit&eacute; de
latence de la machine virtuelle dans
vCenter Server afin d'optimiser les
performances du cluster.
Lorsque vous d&eacute;ployez un cluster HBase,
vous pouvez optimiser les performances
HBase en d&eacute;finissant le param&egrave;tre
latencySensitivity sur &Eacute;LEV&Eacute;. Vous
devez alors d&eacute;finir le param&egrave;tre
reservedMemRatio (voir ci-dessous)
sur 1.
reservedMemRatio
integer
Facultatif
Vous pouvez sp&eacute;cifier 0 ou 1 pour d&eacute;finir
la proportion de m&eacute;moire r&eacute;serv&eacute;e.
Lorsque vous d&eacute;ployez un cluster HBase,
vous pouvez optimiser les performances
HBase en d&eacute;finissant le param&egrave;tre sur 1.
Vous devez alors d&eacute;finir le param&egrave;tre
latencySensitivity (voir ci-dessus)
sur &Eacute;LEV&Eacute;.
reservedCpuRatio
integer
Facultatif
Vous pouvez sp&eacute;cifier 0 ou 1 pour d&eacute;finir
la proportion de CPU r&eacute;serv&eacute;.
Stockage
objet
Facultatif
Param&egrave;tres de stockage.
type
string
Facultatif
Type de stockage :
n LOCAL. Pour le stockage local
n PARTAG&Eacute;. Pour le stockage partag&eacute;.
sizeGB
integer
Facultatif
Taille du stockage des donn&eacute;es. Doit &ecirc;tre
un nombre entier positif
diskNum
integer
Facultatif
Sp&eacute;cifie le nombre de disques &agrave; utiliser
pour chaque groupe de nœuds.
dsNames
liste de cha&icirc;nes
Facultatif
Tableau de banques de donn&eacute;es que le
groupe de nœuds peut utiliser.
dnNames4Data
liste de cha&icirc;nes
Facultatif
Tableau de banques de donn&eacute;es que le
groupe de nœuds de donn&eacute;es peut
utiliser.
dsNames4System
liste de cha&icirc;nes
Facultatif
Tableau de banques de donn&eacute;es que le
syst&egrave;me peut utiliser.
rpNames
liste de cha&icirc;nes
Facultatif
Tableau de pools de ressources que le
groupe de nœuds peut utiliser.
VMware, Inc.
93
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Tableau 8‑3. Attributs et objets de groupes de nœuds de sp&eacute;cification de cluster (suite)
Attribut
Type
Obligatoire/facultatif
Description
haFlag
string
Facultatif
Par d&eacute;faut, les nœuds NameNode et
JobTracker sont prot&eacute;g&eacute;s par vSphere
HA.
n activ&eacute;. Prot&eacute;gez le nœud avec
vSphere HA.
n pieds. Prot&eacute;gez le nœud avec
vSphere FT.
n d&eacute;sactiv&eacute;e. N'utilisez pas vSphere
HA ou vSphere FT.
placementPolicies
objet
Facultatif
Jusqu'&agrave; trois contraintes facultatives :
instancePerHost
n groupRacks
n groupAssociations
n
Tailles des machines virtuelles pr&eacute;d&eacute;finies Serengeti
Serengeti fournit des tailles de machines virtuelles pr&eacute;d&eacute;finies &agrave; utiliser pour d&eacute;finir la taille de machines
virtuelles dans un groupe de nœuds de cluster.
Tableau 8‑4. Tailles des machines virtuelles pr&eacute;d&eacute;finies Serengeti
PETITE
MOYENNNE
GRANDE
EXTRA_LARGE
Nombre de CPU par
machine virtuelle
1
2
4
8
RAM, en Go
3,75
7,5
15
30
Taille du disque de
donn&eacute;es master
Hadoop, en Go
25
50
100
200
Taille du disque de
donn&eacute;es worker
Hadoop, en Go
50
100
200
400
Taille du disque de
donn&eacute;es client
Hadoop, en Go
50
100
200
400
Taille du disque de
donn&eacute;es zookeeper, en
Go
20
40
80
120
Attributs Hadoop de la liste blanche et de la liste noire
Les attributs de la liste blanche sont les attributs Apache Hadoop que vous pouvez configurer
depuisSerengeti avec la commande cluster config. La majorit&eacute; des attributs Apache Hadoop sont sur la
liste blanche. Cependant, il existe quelques attributs Apache Hadoop de la liste noire, que vous ne pouvez
pas configurer depuis Serengeti.
Si vous utilisez un attribut du fichier de sp&eacute;cification de cluster qui n'est ni un attribut sur liste blanche ni un
attribut sur liste noire, et que vous ex&eacute;cutez la commande cluster config, un avertissement s'affiche et
vous devez r&eacute;pondre oui pour continuer ou non pour annuler.
Si votre cluster inclut un NameNode or JobTracker, Serengeti configure les attributs fs.default.name et
dfs.http.address. Vous pouvez remplacer ces attributs en les d&eacute;finissant dans votre sp&eacute;cification de cluster.
94
VMware, Inc.
Chapitre 8 R&eacute;f&eacute;rence de sp&eacute;cification de cluster
Tableau 8‑5. Liste blanche des attributs de configuration
Fichier
Attributs
core-site.xml
Tous les attributs de configuration core-default list&eacute;s sur la page Web de la documentation
Apache Hadoop 2.x. Par exemple, http://hadoop.apache.org/docs/branch_name/coredefault.html.
Excluez les attributs d&eacute;finis dans la liste noire.
hdfs-site.xml
Tous les attributs de configuration hdfs-default list&eacute;s sur la page Web de la documentation
Apache Hadoop 2.x. Par exemple, http://hadoop.apache.org/docs/branch_name/hdfsdefault.html.
Excluez les attributs d&eacute;finis dans la liste noire.
mapred-site.xml
Tous les attributs de configuration mapred-default list&eacute;s sur la page Web de la documentation
Apache Hadoop 2.x. Par exemple, http://hadoop.apache.org/docs/branch_name/mapreddefault.html.
Excluez les attributs d&eacute;finis dans la liste noire.
hadoop-env.sh
JAVA_HOME
PATH
HADOOP_CLASSPATH
HADOOP_HEAPSIZE
HADOOP_NAMENODE_OPTS
HADOOP_DATANODE_OPTS
HADOOP_SECONDARYNAMENODE_OPTS
HADOOP_JOBTRACKER_OPTS
HADOOP_TASKTRACKER_OPTS
HADOOP_LOG_DIR
log4j.properties
hadoop.root.logger
hadoop.security.logger
log4j.appender.DRFA.MaxBackupIndex
log4j.appender.RFA.MaxBackupIndex
log4j.appender.RFA.MaxFileSize
fairscheduler.xml
texte
Tous les attributs de configuration fair_scheduler list&eacute;s sur la page Web de la documentation
Apache Hadoop 2.x qui peuvent &ecirc;tre utilis&eacute;s &agrave; l'int&eacute;rieur du champ de texte. Par exemple,
http://hadoop.apache.org/docs/branch_name/fair_scheduler.html.
Excluez les attributs d&eacute;finis dans la liste noire.
capacityscheduler.xml
Tous les attributs de configuration capacity_scheduler list&eacute;s sur la page Web de la
documentation Apache Hadoop 2.x. Par exemple,
http://hadoop.apache.org/docs/branch_name/capacity_scheduler.html.
Excluez les attributs d&eacute;finis dans la liste noire.
mapred-queueacls.xml
Tous les attributs de configuration mapred-queue-acls list&eacute;s sur la page Web Apache
Hadoop 2.x. Par exemple,
http://hadoop.apache.org/docs/branch_name/cluster_setup.html#Configuring+the
+Hadoop+Daemons.
Excluez les attributs d&eacute;finis dans la liste noire.
VMware, Inc.
95
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Tableau 8‑6. Liste noire des attributs de configuration
Fichier
Attributs
core-site.xml
net.topology.impl
net.topology.nodegroup.aware
dfs.block.replicator.classname
topology.script.file.name
hdfs-site.xml
dfs.http.address
dfs.name.dir
dfs.data.dir
mapred-site.xml
mapred.job.tracker
mapred.local.dir
mapred.task.cache.levels
mapred.jobtracker.jobSchedulable
mapred.jobtracker.nodegroup.aware
hadoop-env.sh
HADOOP_HOME
HADOOP_COMMON_HOME
HADOOP_MAPRED_HOME
HADOOP_HDFS_HOME
HADOOP_CONF_DIR
HADOOP_PID_DIR
log4j.properties
Aucune
fair-scheduler.xml
Aucune
capacity-scheduler.xml
Aucune
mapred-queue-acls.xml
Aucune
Convertir les fichiers XML Hadoop en Serengeti fichiers JSON
Si vous avez d&eacute;fini un grand nombre d'attributs dans vos fichiers de configuration Hadoop, vous pouvez
convertir ces informations de configuration au format JSON que Serengeti peut utiliser.
Proc&eacute;dure
1
Copiez le r&eacute;pertoire $HADOOP_HOME/conf/ de votre cluster Hadoop vers le serveur de gestion Serengeti.
2
Ouvrez un shell de commande, tel que Bash ou PuTTY, connectez-vous au serveur de gestion Serengeti
et ex&eacute;cutez le script de conversion Ruby convert-hadoop-conf.rb.
convert-hadoop-conf.rb path_to_hadoop_conf
Les attributs de configuration Hadoop convertis, au format JSON, s'affichent.
3
Ouvrez le fichier de sp&eacute;cification de cluster pour le modifier.
4
Remplacez la configuration de niveau cluster ou les &eacute;l&eacute;ments de configuration de niveau groupe par la
sortie g&eacute;n&eacute;r&eacute;e par le script de conversion Ruby convert-hadoop-conf.rb.
Suivant
Acc&eacute;dez &agrave; l'interface de ligne de commande Serengeti et utilisez le nouveau fichier de sp&eacute;cification.
96
n
Pour appliquer la nouvelle configuration &agrave; un cluster, ex&eacute;cutez la commande cluster config. Incluez le
param&egrave;tre --specFile et sa valeur : le nouveau fichier de sp&eacute;cification.
n
Pour cr&eacute;er un cluster avec la nouvelle configuration, ex&eacute;cutez la commande cluster create. Incluez le
param&egrave;tre --specFile et sa valeur : le nouveau fichier de sp&eacute;cification.
VMware, Inc.
R&eacute;f&eacute;rence des commandes de
l'interface de ligne de commande
Serengeti
9
Cette section fournit la description et la syntaxe requise de chaque commande de l'interface de ligne de
commande Serengeti.
Ce chapitre aborde les rubriques suivantes :
n
&laquo; Commandes appmanager &raquo;, page 97
n
&laquo; Commandes cluster &raquo;, page 99
n
&laquo; Commande connect &raquo;, page 106
n
&laquo; Commandes datastore &raquo;, page 107
n
&laquo; Commande disconnect &raquo;, page 107
n
&laquo; Commande distro list &raquo;, page 108
n
&laquo; Commandes mgmtvmcfg &raquo;, page 108
n
&laquo; Commandes network &raquo;, page 109
n
&laquo; Commandes resourcepool &raquo;, page 110
n
&laquo; Commandes template &raquo;, page 111
n
&laquo; Commandes topology &raquo;, page 111
n
&laquo; Commandes usermgmt &raquo;, page 112
Commandes appmanager
Les commandes appmanager {*} vous permettent d'ajouter des gestionnaires d'applications, de les
supprimer et de les g&eacute;rer.
Commande appmanager add
La commande appmanager add vous permet d'ajouter un gestionnaire d'applications autre que celui par
d&eacute;faut &agrave; votre environnement. Vous pouvez sp&eacute;cifier un gestionnaire d'applications Cloudera Manager ou
Ambari. La commande appmanager add lit le nom d'utilisateur et le mot de passe en mode interactif. Si vous
sp&eacute;cifiez https, la commande vous invite &agrave; saisir le chemin d'acc&egrave;s du certificat.
Param&egrave;tre
Obligatoire/facultatif
Description
--name
application_manager_name
Obligatoire
Nom du gestionnaire d'applications
--description description
Facultatif
VMware, Inc.
97
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Param&egrave;tre
Obligatoire/facultatif
Description
--type
[ClouderaManager/Ambari]
Obligatoire
Nom du type de gestionnaire d'applications &agrave; utiliser, Cloudera
Manager ou Ambari
--url &lt;http[s]://server:port&gt;
Obligatoire
URL du service du gestionnaire d'applications, sous la forme
http[s]://application_manager_server_ip_or_hostname:port ;
invite &agrave; la saisie d'une connexion, d'un nom d'utilisateur et d'un
mot de passe.
Commande appmanager delete
Vous pouvez utiliser l'Serengeti CLI pour supprimer un gestionnaire d'applications lorsque vous n'en avez
plus besoin.
Le gestionnaire d'applications &agrave; supprimer ne doit pas contenir de clusters, sans quoi le processus &eacute;choue.
appmanager delete --name application_manager_name
Param&egrave;tre
Obligatoire ou facultatif
Description
--name application_manager_name
Obligatoire
Nom du gestionnaire d'applications
Commande appmanager modify
Avec la commandeappmanager modify, vous pouvez modifier les informations d'un gestionnaire
d'applications : par exemple, vous pouvez modifier l'adresse IP du serveur du gestionnaire s'il ne s'agit pas
d'une adresse IP statique ou vous pouvez mettre &agrave; niveau le compte de l'administrateur.
IMPORTANT Commettre une erreur lorsque vous modifiez un gestionnaire d'applications peut avoir de
graves cons&eacute;quences. Par exemple, vous modifiez l'URL de Cloudera Manager en l'URL d'un nouveau
gestionnaire d'applications. Si vous cr&eacute;ez des clusters Big Data Extensionsavec l'instance de l'ancien
Cloudera Manager, il devient impossible de g&eacute;rer le cluster Cloudera Manager pr&eacute;c&eacute;dent. De plus, le cluster
Cloudera Manager n'est pas accessible &agrave; l'instance du nouveau gestionnaire d'applications.
appmanager modify --name application_manager_name
Obligatoire
ou facultatif
Description
--name
application_manager_name
Obligatoire
Nom du gestionnaire d'applications
--url http[s]://server:port
Facultatif
URL du service du gestionnaire d'applications, sous la forme
http[s]://application_manager_server_ip_or_hostname:port ; invite &agrave; la
saisie d'une connexion, d'un nom d'utilisateur et d'un mot de passe. Vous
pouvez utiliser http ou https.
--changeAccount
Facultatif
Modifie le compte de connexion et le mot de passe du gestionnaire
d'applications.
--changeCertificate
Facultatif
Modifie le certificat SSL du gestionnaire d'applications. Ce param&egrave;tre ne
s'applique qu'aux gestionnaires d'applications dont l'URL commence par
https.
Param&egrave;tre
98
VMware, Inc.
Chapitre 9 R&eacute;f&eacute;rence des commandes de l'interface de ligne de commande Serengeti
Commande appmanager list
La commande appmanager list retourne une liste de tous les gestionnaires d'applications disponibles, y
compris le gestionnaire d'applications par d&eacute;faut.
Param&egrave;tre
Obligatoire/facultatif
Description
--name application_manager_name
Facultatif
Nom du gestionnaire d'applications.
--distro distribution_name
Facultatif
Nom d'une distribution sp&eacute;cifique. Si vous n'incluez pas la
variable distribution_name, la commande retourne toutes les
distributions Hadoop prises en charge par le gestionnaire
d'applications.
--configurations | --roles
Facultatif
R&ocirc;les ou configurations Hadoop d'un gestionnaire
d'applications et d'une distribution sp&eacute;cifiques. N'utilisez
pas de r&ocirc;les non pris en charge pour cr&eacute;er un cluster.
Commandes cluster
Les commandes cluster {*} vous permettent de vous connecter aux clusters, de cr&eacute;er et de supprimer des
clusters, d'arr&ecirc;ter et de d&eacute;marrer des clusters, et d'ex&eacute;cuter des op&eacute;rations de gestion des clusters.
Commande cluster config
La commande cluster config vous permet de modifier la configuration d'un cluster Hadoop ou HBase
existant, que le cluster soit configur&eacute; selon les valeurs Serengeti par d&eacute;faut ou que vous ayez personnalis&eacute; le
cluster.
REMARQUE La commande cluster config ne peut &ecirc;tre utilis&eacute;e qu'avec les clusters cr&eacute;&eacute;s &agrave; l'aide du
gestionnaire d'applications par d&eacute;faut. Pour ces clusters cr&eacute;&eacute;s avec Ambari ou Cloudera Manager, toute
modification de la configuration d'un cluster doit s'effectuer &agrave; partir du gestionnaire d'applications. De
m&ecirc;me, les nouveaux services et les nouvelles configurations modifi&eacute;s dans le gestionnaire d'applications
externe ne peuvent pas &ecirc;tre synchronis&eacute;s &agrave; partir de Big Data Extensions.
Vous pouvez utiliser la commande cluster config avec la commande cluster export pour r&eacute;tablir en
mode normal les services de cluster et la configuration Hadoop originale dans les cas suivants :
n
Un service tel que NameNode, JobTracker, DataNode ou TaskTracker s'arr&ecirc;te.
n
Vous avez modifi&eacute; manuellement la configuration Hadoop d'un ou de plusieurs nœuds d'un cluster.
Ex&eacute;cutez la commande cluster export, puis la commande cluster config. Incluez le nouveau fichier de
sp&eacute;cification de cluster que vous venez d'exporter.
Si le cluster HDFS externe a &eacute;t&eacute; cr&eacute;&eacute; par Big Data Extensions, l'utilisateur doit se servir de la commande
clusterconfig pour ajouter la topologie du cluster HBase au cluster HDFS.
L'exemple suivant d&eacute;crit le fichier de sp&eacute;cification &agrave; ajouter &agrave; la topologie :
&quot;configuration&quot; : { &quot;hadoop&quot; : {
&quot;topology.data&quot;: { &quot;text&quot;: &quot;10.1.1.1 /rack4,10.2.2.2 /rack4&quot; } } }
Param&egrave;tre
Obligatoire/facultatif
Description
--name cluster_name_in_Serengeti
Obligatoire
Nom du cluster Hadoop &agrave; configurer.
--specFile spec_file_path
Facultatif
Nom de fichier de la sp&eacute;cification du cluster Hadoop
VMware, Inc.
99
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Param&egrave;tre
Obligatoire/facultatif
Description
--yes
Facultatif
R&eacute;pondez O &agrave; la confirmation O/N. En cas de nonsp&eacute;cification, entrez manuellement o ou n.
--skipConfigValidation
Facultatif
Ignorez la validation de la configuration du cluster.
Commande cluster create
Vous utilisez la commande cluster create pour cr&eacute;er un cluster Hadoop ou HBase.
Si la sp&eacute;cification du cluster n'inclut pas les nœuds requis, par exemple un nœud master, le
Serengeti Management Server cr&eacute;e le cluster conform&eacute;ment &agrave; la configuration de cluster par d&eacute;faut que
d&eacute;ploie le Serengeti Management Server.
Param&egrave;tre
Obligatoire ou
facultatif
Description
--name cluster_name_in_Serengeti
Obligatoire.
Nom de cluster.
--networkName management_network_name
Obligatoire.
R&eacute;seau &agrave; utiliser pour la gestion du trafic dans les
clusters Hadoop.
Si vous omettez l'un des param&egrave;tres r&eacute;seau facultatifs,
le trafic associ&eacute; &agrave; ce param&egrave;tre est achemin&eacute; sur le
r&eacute;seau de gestion sp&eacute;cifi&eacute; &agrave; l'aide du param&egrave;tre-networkName.
--adminGroupName admin_group_name
Facultatif
Groupe administratif &agrave; utiliser pour ce cluster comme
d&eacute;fini dans Active Directory ou LDAP.
--userGroupNameuser_group_name
Facultatif
Groupe d'utilisateurs &agrave; utiliser pour ce cluster comme
d&eacute;fini dans Active Directory ou LDAP.
--appmanagerappmanager_name
Facultatif.
Nom d'un gestionnaire d'applications autre que le
gestionnaire par d&eacute;faut pour g&eacute;rer vos clusters.
--type cluster_type
Facultatif.
Type de cluster :
n Hadoop (par d&eacute;faut)
n HBase
--password
Facultatif.
Ne pas utiliser
si vous utilisez
le param&egrave;tre -resume.
Mot de passe personnalis&eacute; pour tous les nœuds du
cluster.
Les mots de passe doivent contenir 8 &agrave; 20 caract&egrave;res,
utiliser uniquement des caract&egrave;res ASCII inf&eacute;rieurs
visibles (pas d'espaces) et comporter au moins une
lettre majuscule (A - Z), une lettre minuscule (a - z),
un chiffre (0 - 9) et l'un des caract&egrave;res sp&eacute;ciaux
suivants : _, @, #, $, %, ^, &amp;, *
--specFile spec_file_path
Facultatif.
Nom de fichier de la sp&eacute;cification du cluster. Pour les
clusters de calcul uniquement, vous devez r&eacute;viser le
fichier de sp&eacute;cification pour qu'il pointe sur un HDFS
externe.
--distro Hadoop_distro_name
Facultatif.
Distribution Hadoop pour le cluster.
--dsNames datastore_names
Facultatif.
Banque de donn&eacute;es &agrave; utiliser pour d&eacute;ployer le cluster
Hadoop dans Serengeti. Plusieurs banques de
donn&eacute;es peuvent &ecirc;tre utilis&eacute;es, s&eacute;par&eacute;es par une
virgule.
Par d&eacute;faut, toutes les banques de donn&eacute;es disponibles
sont utilis&eacute;es.
Lorsque vous sp&eacute;cifiez le param&egrave;tre --dsNames, le
cluster peut uniquement utiliser les banques de
donn&eacute;es que vous fournissez dans cette commande.
100
VMware, Inc.
Chapitre 9 R&eacute;f&eacute;rence des commandes de l'interface de ligne de commande Serengeti
Param&egrave;tre
Obligatoire ou
facultatif
--hdfsNetworkName hdfs_network_name
Facultatif.
R&eacute;seau &agrave; utiliser pour le trafic HDFS dans les clusters
Hadoop.
--mapredNetworkName mapred_network_name
Facultatif.
R&eacute;seau &agrave; utiliser pour le trafic MapReduce dans les
clusters Hadoop.
--rpNames resource_pool_name
Facultatif.
Pool de ressources &agrave; utiliser pour les clusters Hadoop.
Plusieurs pools de ressources peuvent &ecirc;tre utilis&eacute;s,
s&eacute;par&eacute;s par une virgule.
--resume
Facultatif.
Ne pas utiliser
si vous utilisez
le param&egrave;tre -password.
Effectuez une r&eacute;cup&eacute;ration &agrave; partir d'un processus de
d&eacute;ploiement ayant &eacute;chou&eacute;.
--topology topology_type
Facultatif.
Type de topologie pour la prise en charge des racks :
HVE, RACK_AS_RACK ou HOST_AS_RACK.
--yes
Facultatif.
Confirmation de poursuivre ou pas apr&egrave;s un message
d'erreur. Si les r&eacute;ponses ne sont pas sp&eacute;cifi&eacute;es, vous
pouvez taper o ou n.
Description
Si vous sp&eacute;cifiez o, la cr&eacute;ation du cluster se poursuit.
Si vous ne sp&eacute;cifiez pas o, l'interface de ligne de
commande pr&eacute;sente l'invite suivante apr&egrave;s avoir
affich&eacute; ce message d'avertissement :
Voulez-vous vraiment continuer (O/N) ?
--skipConfigValidation
Facultatif.
Validation selon que la configuration du cluster est
ignor&eacute;e ou pas.
--skipVcRefresh true
Facultatif
Lorsque vous effectuez des op&eacute;rations de cluster dans
un grand environnement vCenter Server,
l'actualisation de l'arborescence peut prendre
beaucoup de temps. Vous pouvez optimiser les
performances de cr&eacute;ation ou de reprise de cluster &agrave;
l'aide de ce param&egrave;tre.
REMARQUE Si Serengeti Management Server partage
l'environnement vCenter Server avec d'autres charges
de travail, n'utilisez pas ce param&egrave;tre.
Serengeti Management Server ne peut pas assurer de
suivi de l'utilisation des ressources des charges de
travail des autres produits, et doit dans ces
circonstances actualiser l'arborescence.
--localRepoURL
Facultatif.
Option pour cr&eacute;er un r&eacute;f&eacute;rentiel Yum local.
--externalMapReduce
FQDN_of_Jobtracker/ResourceManager:port
Facultatif.
Le num&eacute;ro de port est facultatif.
Commande cluster delete
La commande cluster delete vous permet de supprimer un cluster dans Serengeti. Quand un cluster est
supprim&eacute;, l'ensemble de ses machines virtuelles et pools de ressources l'est &eacute;galement.
Param&egrave;tre
Obligatoire/facultatif
Description
--name cluster_name
Obligatoire
Nom du cluster &agrave; supprimer
--templatetemplate_name
Facultatif
Mod&egrave;le &agrave; utiliser pour les clusters. S'il existe plus d'une machine
virtuelle de mod&egrave;le, vous devez sp&eacute;cifier ce param&egrave;tre.
VMware, Inc.
101
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Commande cluster expand
La commande cluster expand vous permet de d&eacute;velopper et de mettre &agrave; jour les nœuds du cluster Big Data.
Vous pouvez d&eacute;velopper un cluster Big Data existant &agrave; l'aide de la commande cluster expand. Modifiez le
fichier de sp&eacute;cification du cluster pour inclure les nœuds suppl&eacute;mentaires et les autres ressources
disponibles, puis utilisez la commande cluster expand pour appliquer la configuration au cluster existant.
Param&egrave;tre
Obligatoire/facultatif
Description
--name cluster_name
Obligatoire
Nom du cluster &agrave; d&eacute;velopper.
--specFile spec_file_path
Obligatoire
Nom de fichier de la sp&eacute;cification du cluster.
Commande cluster export
La commande cluster export vous permet d'exporter les donn&eacute;es de cluster. Selon les options et les
param&egrave;tres que vous sp&eacute;cifiez, vous pouvez exporter les donn&eacute;es de cluster vers un emplacement
sp&eacute;cifique, mettre en forme le s&eacute;parateur du fichier d'exportation, sp&eacute;cifier le type de donn&eacute;es &agrave; exporter ou
indiquer la valeur de la topologie.
Vous pouvez utiliser l'une des commandes suivantes pour exporter le fichier de sp&eacute;cification de cluster.
n
cluster export --name cluster_name --specFile path_to_file
L'utilisation du param&egrave;tre specfile avec la commande cluster export est obsol&egrave;te dans
Big Data Extensions 2.1.
n
cluster export --name cluster_name --type SPEC --output path_to_file
Vous pouvez utiliser la commande cluster export pour afficher l'adresse IP sur la table de mappage
RACK. Le format de la commande est ip rack. Le cluster HDFS externe peut utiliser la commande cluster
export pour impl&eacute;menter l'emplacement des donn&eacute;es de cluster HBase et MapReduce.
Vous pouvez utiliser la commande cluster export pour afficher l'adresse IP du r&eacute;seau de gestion de tous
les nœuds d'un cluster.
Vous pouvez utiliser la commande cluster export pour afficher la table de mappage IP vers FQDN pour tous
les nœuds d'un cluster. Vous pouvez choisir d'afficher la table de mappage sur le terminal ou de l'exporter
dans un fichier.
cluster export --name cluster_name --type IP2FQDN
cluster export --name cluster_name --type IP2FQDN --output path_to_file
102
VMware, Inc.
Chapitre 9 R&eacute;f&eacute;rence des commandes de l'interface de ligne de commande Serengeti
Param&egrave;tre
Obligatoire
ou facultatif
Description
--name cluster_name
Obligatoire
Nom du cluster &agrave; exporter
--type SPEC|RACK|IP|FQDN|IP2FQDN
Facultatif
Type des donn&eacute;es &agrave; exporter. La valeur peut &ecirc;tre
l'un des &eacute;l&eacute;ments suivants :
n
SPEC, valeur par d&eacute;faut, pour exporter un
fichier de sp&eacute;cification.
n
RACK pour exporter la topologie rack de tous
les nœuds
n
IP pour exporter l'adresse IP de tous les
nœuds
n
FQDN pour exporter un mappage des adresses
IP du nom de domaine complet du cluster de
tous les nœuds
n
IP2FQDN pour exporter la table de mappage IP
vers FQDN pour tous les nœuds d'un cluster
--output path_to_output_file
Facultatif
Fichier de sortie dans lequel enregistrer les
donn&eacute;es export&eacute;es
--specfile path_to_spec_file
Facultatif
Fichier de sortie dans lequel enregistrer la
sp&eacute;cification de cluster.
--topology
[HOST_AS_RACK|RACK_AS_RACK|HVE|NONE]
Facultatif
Valeur de la topologie. La valeur par d&eacute;faut est la
topologie que vous avez sp&eacute;cifi&eacute;e lorsque vous
avez cr&eacute;&eacute; le cluster.
--delimiter
Facultatif
Symbole ou cha&icirc;ne pour s&eacute;parer chaque ligne du
r&eacute;sultat. La valeur par d&eacute;faut est \n, ligne apr&egrave;s
ligne.
Commande cluster fix
La commande cluster fix permet d'effectuer une r&eacute;cup&eacute;ration &agrave; partir d'un disque d&eacute;fectueux.
IMPORTANT M&ecirc;me si vous avez modifi&eacute; le mot de passe utilisateur sur les nœuds, le mot de passe modifi&eacute;
n'est pas utilis&eacute; pour les nouveaux nœuds cr&eacute;&eacute;s par l'op&eacute;ration de r&eacute;cup&eacute;ration de disque. Si vous avez
d&eacute;fini le mot de passe initial de l'administrateur lorsque vous avez cr&eacute;&eacute; le cluster, ce mot de passe est utilis&eacute;
pour les nouveaux nœuds. Si vous n'avez pas d&eacute;fini le mot de passe initial de l'administrateur lorsque vous
avez cr&eacute;&eacute; le cluster, les nouveaux mots de passe al&eacute;atoires sont utilis&eacute;s pour les nouveaux nœuds.
Tableau 9‑1.
Param&egrave;tre
Obligatoire/facultatif
Description
--name cluster_name
Obligatoire
Nom du cluster ayant un disque d&eacute;fectueux.
--disk
Requis
R&eacute;cup&eacute;rer les disques des nœuds.
--nodeGroup nodegroup_name
Facultatif
Ex&eacute;cutez l'analyse et la r&eacute;cup&eacute;ration uniquement sur le groupe
de nœuds sp&eacute;cifi&eacute;, et non sur tous les nœuds de gestion du
cluster.
VMware, Inc.
103
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Commande cluster list
La commande cluster list vous permet d'afficher une liste des clusters provisionn&eacute;s dans Serengeti. Vous
pouvez voir les informations suivantes : nom, distribution, &eacute;tat et informations sur chaque groupe de
nœuds. Les informations sur le groupe de nœuds se composent du nombre d'instances, du CPU, de la
m&eacute;moire, du type et de la taille.
Les gestionnaires d'applications surveillent les services et les fonctions de votre environnement
Big Data Extensions. Big Data Extensions synchronise l'&eacute;tat des gestionnaires d'applications r&eacute;guli&egrave;rement.
Vous pouvez utiliser la commande cluster list pour obtenir le dernier &eacute;tat de votre environnement. Si
des avertissements sont affich&eacute;s, vous pouvez contr&ocirc;ler les d&eacute;tails &agrave; partir de la console du gestionnaire
d'applications.
Tableau 9‑2.
Param&egrave;tre
Obligatoire/facultatif
Description
--name cluster_name_in_Serengeti
Facultatif
Nom du cluster &agrave; lister.
--detail
Facultatif
Listez les d&eacute;tails du cluster, y compris le nom dans Serengeti,
la distribution, l'&eacute;tat du d&eacute;ploiement, les informations de
chaque nœud des diff&eacute;rents r&ocirc;les.
Si vous sp&eacute;cifiez cette option, Serengeti interroge le vCenter
Server pour obtenir le dernier &eacute;tat du nœud.
Commande cluster resetParam
La commande cluster resetParam vous permet de r&eacute;initialiser le niveau ioShares d'un cluster en restaurant
ses valeurs par d&eacute;faut.
Tableau 9‑3.
Param&egrave;tre
Obligatoire/facultatif
Description
--name cluster_name
Obligatoire
Nom du cluster pour lequel r&eacute;initialiser les param&egrave;tres de mise &agrave; l'&eacute;chelle.
--ioShares
Facultatif
R&eacute;initialisez sur NORMAL.
Commande cluster resize
La commande cluster resize vous permet de modifier le nombre de nœuds d'un groupe de nœuds ou de
mettre &agrave; l'&eacute;chelle la taille du CPU ou de la RAM de la machine virtuelle de mont&eacute;e en puissance ou de
r&eacute;duction de puissance d'un groupe de nœuds. Lors de la cr&eacute;ation de nouveaux nœuds, ceux-ci ont les
m&ecirc;mes services et configurations que les nœuds originaux. Lors de la suppression des nœuds,
Serengeti Management Server autorise uniquement la suppression des r&ocirc;les tasktracker et nodemanager.
Vous devez sp&eacute;cifier au moins un param&egrave;tre facultatif.
Si vous sp&eacute;cifiez le param&egrave;tre --instanceNum, vous ne pourrez sp&eacute;cifier ni le param&egrave;tre --cpuNumPerNode ni
le param&egrave;tre --memCapacityMbPerNode.
Vous pouvez sp&eacute;cifier en m&ecirc;me temps les param&egrave;tres--cpuNumPerNode et --memCapacityMbPerNode pour
mettre &agrave; l'&eacute;chelle le CPU et la RAM &agrave; l'aide d'une seule commande.
IMPORTANT M&ecirc;me si vous avez modifi&eacute; le mot de passe utilisateur sur les nœuds, le mot de passe modifi&eacute;
n'est pas utilis&eacute; pour les nouveaux nœuds cr&eacute;&eacute;s par l'op&eacute;ration de redimensionnement du cluster. Si vous
avez d&eacute;fini le mot de passe initial de l'administrateur lorsque vous avez cr&eacute;&eacute; le cluster, ce mot de passe est
utilis&eacute; pour les nouveaux nœuds. Si vous n'avez pas d&eacute;fini le mot de passe initial de l'administrateur lorsque
vous avez cr&eacute;&eacute; le cluster, les nouveaux mots de passe al&eacute;atoires sont utilis&eacute;s pour les nouveaux nœuds.
104
VMware, Inc.
Chapitre 9 R&eacute;f&eacute;rence des commandes de l'interface de ligne de commande Serengeti
Param&egrave;tre
Obligatoire/facultatif
Description
--name cluster_name
Obligatoire
Cible le cluster Hadoop d&eacute;ploy&eacute; par
Serengeti Management Server.
--nodeGroup
name_of_the_node_group
Obligatoire
Cible le groupe de nœuds pour r&eacute;duire/agrandir le cluster
d&eacute;ploy&eacute; par Serengeti Management Server.
--instanceNum
instance_number
Facultatif
Nouveau nombre d'instances vers lequel mettre &agrave; l'&eacute;chelle. S'il
est sup&eacute;rieur au nombre original, Serengeti Management Server
cr&eacute;e des nœuds dans le groupe de nœuds cible. S'il est inf&eacute;rieur
au nombre original, Serengeti Management Server supprime des
nœuds dans le groupe de nœuds cible. Si l'op&eacute;ration de
redimensionnement du cluster &eacute;choue, vous pouvez utiliser &agrave;
nouveau le nombre d'instances cibles pour r&eacute;essayer l'op&eacute;ration
de redimensionnement du cluster.
--cpuNumPerNode
num_of_vCPUs
Facultatif
Nombre de CPU virtuels d'une machine virtuelle d'un groupe
de nœuds cible.
--force
Facultatif
Lorsque vous r&eacute;duisez/agrandissez un cluster, vous pouvez
r&eacute;gler les d&eacute;faillances mat&eacute;rielles ou logicielles &agrave; l'aide du
param&egrave;tre --force. L'application de ce param&egrave;tre permet la
poursuite de l'op&eacute;ration de redimensionnement du cluster sans
blocage d&ucirc; &agrave; des d&eacute;faillances limit&eacute;es de la machine virtuelle.
--memCapacityMbPerNode
size_in_MB
Facultatif
Taille m&eacute;moire, en Mo, de chaque machine virtuelle d'un
groupe de nœuds cible.
--skipVcRefresh true
Facultatif
Lorsque vous effectuez des op&eacute;rations de cluster dans un grand
environnement vCenter Server, l'actualisation de l'arborescence
peut prendre beaucoup de temps. Vous pouvez optimiser les
performances de redimensionnement de cluster &agrave; l'aide de ce
param&egrave;tre.
REMARQUE Si Serengeti Management Server partage
l'environnement vCenter Server avec d'autres charges de travail,
n'utilisez pas ce param&egrave;tre. Serengeti Management Server ne
peut pas assurer de suivi de l'utilisation des ressources des
charges de travail des autres produits, et doit dans ces
circonstances actualiser l'arborescence.
Commande cluster setParam
La commande cluster setParam command vous permet de d&eacute;finir la priorit&eacute; ioShares d'un cluster Hadoop
dans Serengeti. Vous devez sp&eacute;cifier au moins un param&egrave;tre facultatif.
Param&egrave;tre
Obligatoire/facultatif
Description
--name cluster_name
Obligatoire
Nom du cluster pour lequel d&eacute;finir les param&egrave;tres d'&eacute;lasticit&eacute;.
--ioShares level
Facultatif
Niveau d'acc&egrave;s prioritaire : FAIBLE, NORMAL ou &Eacute;LEV&Eacute;.
Commande cluster start
La commande cluster start vous permet de d&eacute;marrer un cluster dans Serengeti.
Tableau 9‑4.
Param&egrave;tre
Obligatoire/facultatif
Description
--name cluster_name
Obligatoire
Nom du cluster &agrave; d&eacute;marrer.
--force
Facultatif
Lorsque vous d&eacute;marrez un cluster, vous pouvez r&eacute;gler les d&eacute;faillances
mat&eacute;rielles ou logicielles &agrave; l'aide du param&egrave;tre --force. L'application de
ce param&egrave;tre permet la poursuite de l'op&eacute;ration de d&eacute;marrage du cluster
sans blocage d&ucirc; &agrave; des d&eacute;faillances limit&eacute;es de la machine virtuelle.
VMware, Inc.
105
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Commande cluster stop
La commande cluster stop vous permet d'arr&ecirc;ter un cluster dans Serengeti.
Tableau 9‑5.
Param&egrave;tre
Obligatoire/facultatif
Description
--name cluster_name
Obligatoire
Nom du cluster &agrave; arr&ecirc;ter.
Commande cluster update
La commande cluster update vous permet de d&eacute;velopper et de mettre &agrave; jour les pools de ressources et les
banques de donn&eacute;es disponibles pour votre environnement Big Data Extensions.
Tableau 9‑6.
Param&egrave;tre
Obligatoire/facultatif
Description
--name cluster_name
Obligatoire
Nom du cluster &agrave; mettre &agrave; jour.
--rpNamesresource_pool_nameOptional
Facultatif
Pools de ressources &agrave; utiliser avec les clusters Hadoop.
Vous pouvez sp&eacute;cifier plusieurs pools de ressources en
s&eacute;parant le nom de chacun par une virgule.
Les pools de ressources que vous sp&eacute;cifiez peuvent
inclure des pools de ressources d&eacute;j&agrave; utilis&eacute;s par le
cluster.
--dsName datastore_names
Facultatif
Banques de donn&eacute;es &agrave; utiliser avec les clusters Hadoop.
Vous pouvez sp&eacute;cifier plusieurs banques de donn&eacute;es en
s&eacute;parant le nom de chacune par une virgule.
Les banques de donn&eacute;es que vous sp&eacute;cifiez peuvent
inclure des banques de donn&eacute;es d&eacute;j&agrave; utilis&eacute;es par le
cluster.
--append
Facultatif
Ce param&egrave;tre permet d'ajouter les nouveaux pools de
ressources et les nouvelles banques de donn&eacute;es que
vous souhaitez ajouter &agrave; votre environnement aux
ressources d&eacute;j&agrave; existantes. Cela ne remplace pas vos
ressources existantes.
--yes
Facultatif
Vous pouvez confirmer ou non la poursuite de l'action
sp&eacute;cifi&eacute;e suite &agrave; un message d'erreur. Si les r&eacute;ponses ne
sont pas sp&eacute;cifi&eacute;es, vous pouvez saisir O ou N. Si vous
sp&eacute;cifiez O, la cr&eacute;ation du cluster se poursuit. Si vous ne
sp&eacute;cifiez pas O, l'interface de ligne de commande
pr&eacute;sente l'invite de commande suivante apr&egrave;s avoir
affich&eacute; le message d'avertissement : Are you sure you
want to continue (Y/N)?
Commande connect
La commande connect vous permet de vous connecter &agrave; un serveur Serengeti distant.
La commande connect lit le nom d'utilisateur et le mot de passe en mode interactif. Vous devez ex&eacute;cuter la
commande connect chaque fois que vous commencez une session d'interface de ligne de commande
Serengeti, puis de nouveau apr&egrave;s le d&eacute;lai d'expiration de 30 minutes. Si vous n'ex&eacute;cutez pas cette
commande, vous ne pourrez pas ex&eacute;cuter d'autres commandes.
106
VMware, Inc.
Chapitre 9 R&eacute;f&eacute;rence des commandes de l'interface de ligne de commande Serengeti
Tableau 9‑7.
Param&egrave;tre
Obligatoire/facultatif
Description
--host
Obligatoire
URL du service Web Serengeti, sous la forme
serengeti_management_server_ip_or_host :port. Par d&eacute;faut, le service Web Serengeti
est d&eacute;marr&eacute; sur le port 8443.
Commandes datastore
La commande datastore {*} vous permet d'ajouter et de supprimer des banques de donn&eacute;es, ainsi que
d'afficher la liste des banques de donn&eacute;es d'un d&eacute;ploiement Serengeti.
Commande datastore add
La commande datastore add vous permet d'ajouter une banque de donn&eacute;es &agrave; Serengeti.
Tableau 9‑8.
Param&egrave;tre
Obligatoire/facultatif
Description
--name datastore_name_in_Serengeti
Obligatoire
Nom de la banque de donn&eacute;es dans Serengeti.
--spec datastore_name_in_vCenter_Server
Obligatoire
Nom de la banque de donn&eacute;es dans vSphere. Vous
pouvez utiliser un caract&egrave;re g&eacute;n&eacute;rique pour sp&eacute;cifier
plusieurs banques vmfs. Les caract&egrave;res g&eacute;n&eacute;riques pris
en charge sont * et ?.
--type {LOCAL|PARTAG&Eacute;}
Facultatif
(Par d&eacute;faut = PARTAG&Eacute;) Type de la banque de
donn&eacute;es : LOCAL ou PARTAG&Eacute;.
Commande datastore delete
La commande datastore delete vous permet de supprimer une banque de donn&eacute;es de Serengeti.
Tableau 9‑9.
Param&egrave;tre
Obligatoire/facultatif
Description
--name datastore_name_in_Serengeti
Obligatoire
Nom de la banque de donn&eacute;es &agrave; supprimer.
Commande datastore list
La commande datastore list vous permet d'afficher une liste des banques de donn&eacute;es dans Serengeti. Si
vous ne sp&eacute;cifiez pas un nom de banque de donn&eacute;es, toutes les banques de donn&eacute;es sont affich&eacute;es.
Tableau 9‑10.
Param&egrave;tre
Obligatoire/facultatif
Description
--name Name_of_datastore_name_in_Serengeti
Facultatif
Nom de la banque de donn&eacute;es &agrave; afficher.
--detail
Facultatif
Affichez les d&eacute;tails de la banque de donn&eacute;es, y
compris le chemin d'acc&egrave;s de la banque de
donn&eacute;es dans vSphere.
Commande disconnect
La commande disconnect vous permet de vous d&eacute;connecter d'un serveur Serengeti distant. Apr&egrave;s vous &ecirc;tre
d&eacute;connect&eacute; du serveur, vous ne pouvez pas ex&eacute;cuter de commandes Serengeti tant que vous ne vous
reconnectez pas avec la commande connect.
Il n'y a aucun param&egrave;tre de commande.
VMware, Inc.
107
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Commande distro list
La commande distro list vous permet d'afficher la liste des r&ocirc;les d'une distribution Hadoop.
Tableau 9‑11.
Param&egrave;tre
Obligatoire/facultatif
Description
--name distro_name
Facultatif
Nom de la distribution &agrave; afficher.
Commandes mgmtvmcfg
Les commandes mgmtvmcfg vous permettent d'afficher vos param&egrave;tres de configuration LDAP actuels et de
modifier le mode de gestion des comptes d'utilisateur.
Commande mgmtvmcfg get
Vous pouvez afficher la configuration LDAP actuelle &agrave; l'aide de la commande mgmtvmcfg get.
La commande mgmtvmcfg get permet d'afficher les param&egrave;tres de configuration LDAP actuels utilis&eacute;s dans
votre environnement Big Data Extensions.
mgmtvmcfg get
Tableau 9‑12. Informations de connexion LDAP
type
Le service d'authentification utilisateur externe &agrave; utiliser (soit AD_AS_LDAP soit LDAP).
baseUserDn
Le DN utilisateur de base.
baseGroupDn
Le DN groupe de base.
primaryUrl
L'URL du serveur principal de votre serveur Active Directory ou LDAP.
mgmtVMUserGroupDn
(Facultatif) Le DN de base pour rechercher les groupes afin d'acc&eacute;der au
Serengeti Management Server.
userName
Le nom d'utilisateur du compte d'administrateur du serveur Active Directory ou LDAP.
password
Le mot de passe du compte d'administrateur du serveur Active Directory ou LDAP.
Commande mgmtvmcfg modify
La commande mgmtvmcfg modify vous permet de sp&eacute;cifier diff&eacute;rents modes de gestion des comptes
d'utilisateurs. Vous pouvez choisir d'utiliser la gestion des utilisateurs locaux, LDAP ou les deux.
Vous pouvez utiliser l'un des trois modes d'authentification utilisateur suivants : LOCAL, LDAP ou MIXED.
n
Sp&eacute;cifiez MIXED pour utiliser une combinaison des utilisateurs locaux et de ceux stock&eacute;s dans une source
d'identit&eacute; externe. Si vous choisissez ce mode, vous devez configurer Big Data Extensions pour qu'il
utilise un service LDAP ou Active Directory.
mgmtvmcfg modify --usermgmtmode MIXED
n
Sp&eacute;cifiez LDAP pour cr&eacute;er et g&eacute;rer les utilisateurs et les groupes stock&eacute;s dans la source d'identit&eacute; de votre
entreprise telle qu'Active Directory en tant que LDAP ou LDAP. Si vous choisissez LDAP, vous devez
configurer Big Data Extensions pour qu'il utilise un service LDAP ou Active Directory.
mgmtvmcfg modify --usermgmtmode LDAP
108
VMware, Inc.
Chapitre 9 R&eacute;f&eacute;rence des commandes de l'interface de ligne de commande Serengeti
n
Sp&eacute;cifiez LOCAL pour cr&eacute;er et g&eacute;rer les utilisateurs et les groupes stock&eacute;s localement dans votre
environnement Big Data Extensions. LOCAL est la solution de gestion des utilisateurs par d&eacute;faut
lorsqu'aucun service Active Directory ou LDAP n'est disponible.
mgmtvmcfg modify --usermgmtmode LOCAL
Param&egrave;tre
Obligatoire ou facultatif
Description
--usermgmtmode LOCAL | LDAP |
MIXED
Facultatif
Sp&eacute;cifiez l'un des modes de gestion
des utilisateurs : LOCAL, MIXED ou
LDAP.
Commandes network
Les commandes network {*} vous permettent de g&eacute;rer vos r&eacute;seaux.
Commande network add
La commande network add vous permet d'ajouter un r&eacute;seau &agrave; Serengetide sorte que les adresses IP du
r&eacute;seau soient accessibles aux clusters que vous cr&eacute;ez.
REMARQUE Si votre r&eacute;seau utilise des adresses IP statiques, assurez-vous que les adresses ne sont pas
occup&eacute;es avant d'ajouter le r&eacute;seau.
Cet exemple ajoute un r&eacute;seau avec des adresses IP assign&eacute;es de fa&ccedil;on statique.
network add --name ipNetwork --ip 192.168.1.1-100,192.168.1.120-180 --portGroup pg1
--dns 202.112.0.1 --gateway 192.168.1.255 --mask 255.255.255.1
Cet exemple ajoute un r&eacute;seau avec des adresses IP assign&eacute;es par DHCP.
network add --name dhcpNetwork --dhcp --portGroup pg1
Cet exemple ajoute un r&eacute;seau dynamique avec des adresses IP attribu&eacute;es par DHCP et g&eacute;n&egrave;re des noms
d'h&ocirc;te significatifs pour les nœuds d'un cluster Hadoop.
network add --name ddnsNetwork --dhcp --portGroup pg1 --dnsType DYNAMIC
Sp&eacute;cifiez le param&egrave;tre --dhcp pour les adresses dynamiques ou la combinaisons des param&egrave;tres requis pour
les adresses statiques, mais pas les param&egrave;tres des adresses dynamiques et statiques.
Tableau 9‑13.
Param&egrave;tre
Obligatoire/facultatif
Description
--name network_name_in_Serengeti
Obligatoire
Nom de la ressource r&eacute;seau &agrave; ajouter.
--portGroup
port_group_name_in_vSphere
Obligatoire
Nom du groupe de ports de vSphere &agrave;
ajouter.
--dhcp
Obligatoire pour les adresses
dynamiques. Ne pas utiliser pour
les adresses statiques.
Attribuez les adresses IP DHCP
dynamiques.
--ip IP_range
Obligatoire pour les adresses
statiques. Ne pas utiliser pour les
adresses dynamiques.
Attribuez les adresses IP statiques.
Exprimez IP_range dans le format
xx.xx.xx.xx-xx[,xx]*.
Exprimez les adresses IP dans le format
xx.xx.xx.xx.
Facultatif
Les valeurs possibles incluent NORMAL,
DYNAMIC et OTHERS. La valeur par
d&eacute;faut est NORMAL..
--dns dns_server_ip_addr
--secondDNS dns_server_ip_addr
--gateway gateway_IP_addr
--mask network_IP_addr_mask
--dnsType
VMware, Inc.
109
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Commande network delete
La commande network delete vous permet de supprimer un r&eacute;seau de Serengeti. La suppression d'un
r&eacute;seau non utilis&eacute; lib&egrave;re les adresses IP du r&eacute;seau pour qu'elles soient utilis&eacute;es par d'autres services.
Param&egrave;tre
Obligatoire/facultatif
Description
--namenetwork_name_in_Serengeti
Obligatoire
Supprimez le r&eacute;seau sp&eacute;cifi&eacute; dans Serengeti.
Commande network list
La commande network list vous permet d'afficher la liste des r&eacute;seaux disponibles dans Serengeti. Les nom,
groupe de ports dans vSphere, type d'attribution d'adresse IP, adresse IP attribu&eacute;e, etc., apparaissent.
Param&egrave;tre
Obligatoire/facultatif
Description
--name network_name_in_Serengeti
Facultatif
Nom du r&eacute;seau &agrave; afficher.
--detail
Facultatif
Affichez les d&eacute;tails du r&eacute;seau.
Commande network modify
La commande network modify vous permet de reconfigurer un r&eacute;seau IP statique Serengeti en lui ajoutant
des segments d'adresse IP. Il se peut que vous ayez besoin d'ajouter des segments d'adresse IP de telle sorte
qu'il y ait assez de capacit&eacute; pour le cluster que vous voulez cr&eacute;er.
REMARQUE Si votre r&eacute;seau utilise des adresses IP statiques, assurez-vous que les adresses ne sont pas
occup&eacute;es avant d'ajouter le r&eacute;seau.
Param&egrave;tre
Obligatoire/facultatif
Description
--namenetwork_name_in_Serengeti
Obligatoire
Modifiez le r&eacute;seau IP statique sp&eacute;cifi&eacute;
dans Serengeti.
--addIP IP_range
Facultatif
Segments d'adresse IP, au format
xx.xx.xx.xx-xx[,xx]*.
--dnsType
Facultatif
Les valeurs possibles incluent Normal,
Dynamic et Other. La valeur par
d&eacute;faut est Normal.
--generateHostname
Facultatif
La valeur par d&eacute;faut est False.
Commandes resourcepool
Les commandes resourcepool {*} vous permettent de g&eacute;rer vos pools de ressources.
Commande resourcepool add
La commande resourcepool add vous permet d'ajouter un pool de ressources vSphere &agrave; Serengeti.
Lorsque vous ajoutez un pool de ressources &agrave; Serengeti, il repr&eacute;sente le pool de ressources vSphere r&eacute;el tel
qu'il est identifi&eacute; par vCenter Server. Cette repr&eacute;sentation symbolique vous permet d'utiliser le nom du pool
de ressources Serengeti au lieu du chemin d'acc&egrave;s complet du pool de ressources dans vCenter Server, dans
les fichiers de sp&eacute;cification de cluster.
110
VMware, Inc.
Chapitre 9 R&eacute;f&eacute;rence des commandes de l'interface de ligne de commande Serengeti
Tableau 9‑14.
Param&egrave;tre
Obligatoire/facultatif
Description
--name resource_pool_name_in_Serengeti
Obligatoire
Nom du pool de ressources &agrave; ajouter.
--vccluster vSphere_cluster_of_the_resource_pool
Facultatif
Nom du cluster vSphere qui contient le pool
de ressources.
--vcrp vSphere_resource_pool_name
Obligatoire
Pool de ressources vSphere.
Commande resourcepool delete
La commande resourcepool delete vous permet de supprimer un pool de ressources de Serengeti.
Tableau 9‑15.
Param&egrave;tre
Obligatoire/facultatif
Description
--name resource_pool_name_in_Serengeti
Obligatoire
Pool de ressources &agrave; supprimer.
Commande resourcepool list
La commande resourcepool list vous permet d'afficher une liste de pools de ressources Serengeti. Si vous
ne sp&eacute;cifiez pas de nom, tous les pools de ressources Serengeti sont affich&eacute;s.
Tableau 9‑16.
Param&egrave;tre
Obligatoire/facultatif
Description
--name resource_pool_name_in_Serengeti
Facultatif
Nom et chemin d'acc&egrave;s du pool de ressources &agrave;
afficher.
--detail
Facultatif
Incluez les d&eacute;tails des pools de ressources.
Commandes template
Les commandes template vous permettent de g&eacute;rer les mod&egrave;les de nœud dans votre environnement
Serengeti.
Commande template list
La commande template list vous permet d'obtenir une liste des mod&egrave;les de nœud disponibles dans votre
environnement Serengeti.
Il n'y a aucun param&egrave;tre de commande.
Commandes topology
Les commandes topology {*} vous permettent de g&eacute;rer la topologie des clusters.
Commande topology list
La commande topology list vous permet d'afficher la topologie des mappages RACK/H&Ocirc;TES dans
Serengeti.
Il n'y a aucun param&egrave;tre de commande.
VMware, Inc.
111
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Commande topology upload
La commande topology upload vous permet de t&eacute;l&eacute;charger un fichier de la topologie des mappages
rack/h&ocirc;tes dans Serengeti. Le fichier t&eacute;l&eacute;charg&eacute; remplace tout autre fichier ant&eacute;rieur.
Le format du fichier pour chaque ligne est : rackname: hostname1, hostname2…
Tableau 9‑17.
Param&egrave;tre
Obligatoire/facultatif
Description
--fileName topology_file_name
Obligatoire
Nom du fichier de topologie.
--yes
Facultatif
R&eacute;pondez O &agrave; la confirmation O/N. En cas de nonsp&eacute;cification, entrez manuellement o ou n.
Commandes usermgmt
Les commandes usermgmtserver vous permettent de g&eacute;rer des utilisateurs et des groupes sur un serveur
Active Directory ou LDAP &agrave; des fins d'authentification utilisateur. Vous pouvez ainsi g&eacute;rer les utilisateurs &agrave;
partir d'un point central.
Commande usermgmtserver add
La commande usermgmtserver add permet d'activer la gestion centralis&eacute;e des comptes afin de l'utiliser avec
l'authentification utilisateur LDAP.
Pour activer la gestion centralis&eacute;e des comptes afin de l'utiliser avec Big Data Extensions &agrave; l'aide de LDAP,
(soit avec Active Directory en tant que LDAP soit avec OpenLDAP), ex&eacute;cutez la commande usermgmtserver
add. Dans cet exemple, la gestion centralis&eacute;e des comptes est activ&eacute;e avec les param&egrave;tres de configuration
LDAP contenus dans le fichier /opt/serengeti/sbin/LDAPConfigFile.cfg
usermgmtserver add --cfgfile /opt/serengeti/sbin/LDAPConfigFile.cfg
Param&egrave;tre
Obligatoire ou facultatif
Description
add --cfgfile config_file_path
Facultatif
Active la gestion centralis&eacute;e des
comptes. Le fichier de configuration
que vous sp&eacute;cifiez contient les
param&egrave;tres de configuration du
serveur LDAP. Vous devez cr&eacute;er ce
fichier manuellement. Reportez-vous &agrave;
&laquo; Cr&eacute;er un fichier de configuration du
service LDAP avec l'interface de ligne
de commande Serengeti &raquo;, page 29
Commande usermgmtserver modify
Vous pouvez modifier votre configuration LDAP et rendre ces modifications disponibles dans votre
environnement Big Data Extensions.
Vous pouvez appliquer &agrave; Big Data Extensions les modifications que vous apportez &agrave; vos param&egrave;tres de
configuration LDAP. Cela vous permet de mettre &agrave; jour vos informations du service LDAP.
Pour modifier les param&egrave;tres LDAP pour l'environnement Big Data Extensions, mettez &agrave; jour le fichier de
configuration LDAP selon vos besoins, puis ex&eacute;cutez la commande usermgmtserver modify. Dans cet
exemple, la configuration de l'environnement LDAP est mise &agrave; jour &agrave; l'aide des param&egrave;tres contenus dans le
fichier /opt/serengeti/sbin/LDAPConfigFile.cfg
usermgmtserver modify --cfgfile /opt/serengeti/sbin/LDAPConfigFile.cfg
112
VMware, Inc.
Chapitre 9 R&eacute;f&eacute;rence des commandes de l'interface de ligne de commande Serengeti
Param&egrave;tre
Obligatoire ou facultatif
Description
modify --cfgfile config_file
Facultatif
Si vous mettez &agrave; jour le fichier de
configuration LDAP de sorte &agrave; utiliser
les nouveaux param&egrave;tres, vous devez
ex&eacute;cuter le param&egrave;tre modify pour
mettre &agrave; jour les param&egrave;tres dans
Big Data Extensions.
Vous devez mettre &agrave; jour
manuellement le fichier de
configuration. Reportez-vous &agrave; &laquo; Cr&eacute;er
un fichier de configuration du service
LDAP avec l'interface de ligne de
commande Serengeti &raquo;, page 29
VMware, Inc.
113
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
114
VMware, Inc.
Index
A
acc&egrave;s, interface de ligne de commande 9
Active Directory
fichier de configuration 29
g&eacute;rer les utilisateurs 29
activer 31
Adresses IP 25
affichage
Banques de donn&eacute;es 85, 107
clusters 104
clusters provisionn&eacute;s 85
distributions Hadoop, disponibles 84, 108
pools de ressources 86
r&eacute;seaux 86
affichage des configurations ou des r&ocirc;les, avec
l'interface de ligne de commande
Serengeti 16, 21, 84
affichage des distributions, avec l'interface de
ligne de commande Serengeti 15, 21,
84
affichage des distributions prises en charge,
avec l'interface de ligne de commande
Serengeti 15, 21, 84
ajout
Banques de donn&eacute;es 24, 107
pools de ressources 23
r&eacute;seaux 24
topologie 41
ajout d'un serveur de gestion de logiciels, avec
l'interface de ligne de commande
Serengeti 14, 20
ajout de clusters, avec un gestionnaire
d'applications 66
Ambari 13, 14, 19, 20
appmanager, commandes 97, 98
appmanager add, commande 9, 97, 99
appmanager list, commande 9, 97, 99
arr&ecirc;t, clusters 106
arr&ecirc;t des clusters 74
attributs Hadoop
sur liste blanche 94
sur liste noire 94
attributs Hadoop sur liste blanche 94
attributs Hadoop sur liste noire 94
authentification utilisateur
Active Directory 108
changer de mode 108
LDAP 108
VMware, Inc.
local 108
mixte 108
Voir aussi gestion d'utilisateurs
avec l'interface de ligne de commande 66
B
Banques de donn&eacute;es
affichage 85, 107
ajout 24, 107
suppression 24, 107
C
capacit&eacute; de calcul, mise &agrave; l'&eacute;chelle 75
chargement, topologie 41
charges de travail, &eacute;quilibrage 41
CLI, acc&egrave;s 9
Cloudera Manager 13, 14, 19, 20
cluster avec HA HDFS namenode externe 48,
50, 51
cluster de base 65
cluster de calcul du travailleur uniquement 63,
67
cluster du travailleur uniquement
MapReduce v1 50
cluster du travailleur uniquement
MapReduce v2 51
cluster du travailleur uniquement Yarn 51
cluster expand 102
cluster HA HDFS namenode externe 48, 50, 51
cluster HDFS externe, pr&eacute;parer 43
cluster uniquement HBase, utiliser OneFS en
tant que cluster HDFS externe 43
cluster uniquement HBase, conditions
pr&eacute;alables 43
cluster Yarn 51
clusters
affectation des ressources 69
affichage provisionn&eacute; 85, 104
agrandissement 74
ajout avec un gestionnaire d'applications 66
arr&ecirc;t 74, 106
attribution des r&eacute;seaux 69
attributs dans les d&eacute;finitions 91
basculement 78
calcul du travailleur uniquement 63, 67
calcul uniquement 37, 59, 60, 62
115
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
conditions requises de d&eacute;finition dans les
fichiers de sp&eacute;cification de cluster 88
configuration 70, 99
configuration Hadoop par d&eacute;faut 37
configuration HBase par d&eacute;faut 38
cr&eacute;ation, , voir cr&eacute;ation de clusters
d&eacute;finition des nœuds 91
d&eacute;finitions, exportation 102
d&eacute;marrage 74, 105
d&eacute;ploiement sous des pools de ressources
diff&eacute;rents 23
gestion 73
Hadoop de base 37
Hadoop par d&eacute;faut 37
HBase 37, 45
mise &agrave; l'&eacute;chelle 104
mise &agrave; l'&eacute;chelle &eacute;lastique 104
mise &agrave; l'&eacute;chelle manuelle 104
mots de passe d'administrateur de nœuds 67
mots de passe d'administrateur
personnalis&eacute;s 67
nommer 64
personnalis&eacute; 37
reconfiguration 75, 78
r&ocirc;les des groupes de nœuds 71
s&eacute;paration donn&eacute;es/calcul 37, 55, 57
suppression 78, 101
topologie 38, 41, 53
uniquement HBase 44
clusters de calcul de donn&eacute;es 52
clusters de calcul uniquement 52, 59, 60, 62
clusters Hadoop
configuration par d&eacute;faut 37
Voir aussi clusters
clusters Hadoop de base 37
clusters HBase
configuration 45
configuration par d&eacute;faut 38
cr&eacute;ation par d&eacute;faut 42
Voir aussi clusters
Clusters HBase 41
clusters MapReduce, cr&eacute;ation 49
Clusters MapReduce 49
clusters MapReduce v1 38
clusters MapReduce v2 (YARN) 38
clusters personnalis&eacute;s, cr&eacute;ation 71
clusters s&eacute;par&eacute;s donn&eacute;es/calcul 37, 55, 57
clusters uniquement HBase, cr&eacute;ation avec
l'interface de ligne de commande 44
commande 9, 97, 99
commande appmanager add 13, 19, 97
116
commande appmanager delete, appmanager
delete 98
commande appmanager list 15, 22, 83, 99
commande appmanager modify 98
commande cluster config 75, 78, 99
commande cluster create 64, 100
commande cluster delete 78, 101
Commande cluster expand 78, 102
commande cluster export 75, 102
commande cluster fix 80, 103
commande cluster list 85, 104
commande cluster resetParam 104
commande cluster resize 74, 75, 104
commande cluster setParam 105
commande cluster start 74, 105
commande cluster stop 74, 106
commande connect 106
commande create cluster 48, 50, 51
commande datastore add 24, 107
commande datastore delete 24, 107
commande datastore list 24, 85, 107
commande disconnect 107
commande distro list 84, 108
Commande mgmtvmcfg get 108
commande mgmtvmcfg modify 108
commande network add 24, 109
commande network delete 25, 110
commande network list 25, 86, 110
commande network modify 110
commande resourcepool add 23, 110
commande resourcepool delete 23, 111
commande resourcepool list 23, 86, 111
commande template list 111
commande topology list 39, 41, 111
commande topology upload 41, 112
Commande usermgmtserver 112
Commande usermgmtserver modify 112
commandes, appmanager 97
commandes appmanager 97
commandes cluster 99
commandes datastore 107
Commandes mgmtvmcfg 108
commandes network 109
commandes resourcepool 110
conditions pr&eacute;alables &agrave; la cr&eacute;ation d'un cluster
uniquement HBase 43
configuration, clusters 70, 99
configuration Hadoop, conversion XML en
JSON 96
configuration Hadoop XML, conversion en
JSON 96
configurations ou r&ocirc;les, liste 16, 21, 84
VMware, Inc.
Index
connexion
aux serveurs Serengeti 106
Serengeti, services 9
contention des ressources, adressage 75
conversion de XML Hadoop en JSON
Serengeti 75
cr&eacute;ation de clusters
avec les distributions disponibles 68
avec les r&eacute;seaux attribu&eacute;s 69
avec les ressources attribu&eacute;es 69
avec prise en charge de la topologie 41, 53
avec un gestionnaire d'applications 66
calcul uniquement 59, 60, 62
contraintes de strat&eacute;gie de placement 57
Hadoop par d&eacute;faut 64
HBase par d&eacute;faut 42
MapReduce v2 49
mot de passe d'administrateur
personnalis&eacute; 67
personnalis&eacute; 71
protection vSphere HA 45
s&eacute;paration donn&eacute;es/calcul 53, 55, 57
sp&eacute;cification des nœuds master, worker et
client 70
strat&eacute;gies de placement 53
cr&eacute;ation de clusters HBase uniquement, avec
l'interface de ligne de commande 44
cr&eacute;er un cluster HA HDFS namenode
externe 48, 50, 51
D
d&eacute;connexion des serveurs Serengeti 107
d&eacute;faillance disque, r&eacute;cup&eacute;rer d'une 80
d&eacute;finition, attributs de nœud 91
d&eacute;marrage des clusters 74, 105
d&eacute;velopper les nœuds du cluster 102
d&eacute;velopper un cluster 78
disque d&eacute;fectueux, r&eacute;cup&eacute;rer 103
Distribution Ambari, DNS et FQDN pour le trafic
du cluster 62
distribution Cloudera
commandes administratives avec l'interface de
ligne de commande Serengeti 9
DNS et FQDN pour le trafic de cluster 41, 53,
55, 57, 60, 68–71
distribution MapR, commandes administratives
avec l'interface de ligne de commande
Serengeti 9
distribution Pivotal
commandes administratives avec l'interface de
ligne de commande Serengeti 9
DNS et FQDN pour le trafic de cluster 41, 53,
55, 57, 68–71
distributions
liste 15, 21, 84
VMware, Inc.
supported 13, 19
Voir aussi distributions Hadoop
distributions Hadoop
affichage de la liste 108
affichage disponible 84
fichiers de configuration 94
fichiers JAR 75
distributions Hadoop prenant en charge les
clusters MapReduce 38
distributions prises en charge, liste 15, 21, 84
E
&eacute;quilibrage des charges de travail 41
exportation, d&eacute;finitions de cluster 102
Extensions de virtualisation Hadoop (HVE,
Hadoop Virtualization Extensions) 38
F
f&eacute;d&eacute;ration 68
fichier de configuration 29
fichier log4j.properties 75
fichiers de configuration, conversion de XML
Hadoop en JSON Serengeti 75
fichiers de mappage rack/h&ocirc;tes 39
fichiers de mappage rack/h&ocirc;tes de la
topologie 39
fichiers de sp&eacute;cification de cluster
cluster de calcul uniquement 59, 60, 62
clusters s&eacute;par&eacute;s donn&eacute;es/calcul 55
conditions requises de la d&eacute;finition de
cluster 88
conditions requises des fichiers 87
configuration 87
contraintes de topologie 53
d&eacute;finition des attributs 91
exemple annot&eacute; 88
fichiers JAR de distribution Hadoop 75
lien symbolique pool de ressources 23
nœuds 70
placement de nœuds 57
reconfiguration de clusters 75
strat&eacute;gies de placement 39
substitutions de groupes de nœuds 78
topologie 39
G
g&eacute;rer les utilisateurs et les comptes
d'utilisateurs 29
gestion, clusters 73
gestion des ressources 19
gestionnaire d'applications, modifier 15, 21
gestionnaires d'applications
ajout 97
117
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
ajout de clusters 66
gestion 13
liste 99
suppression 16, 22
surveillance 15, 22, 83
groupes de nœuds
dans les d&eacute;finitions de cluster 88
reconfiguration 78
r&ocirc;les, modification 71
r&ocirc;les, pour &eacute;viter les conflits 59, 60, 62
stock&eacute;es 39
groupes de ports, , voir r&eacute;seaux
H
Hadoop Virtualization Extensions (HVE) 41
HDFS, &eacute;viter les conflits de r&ocirc;les de nœuds 59,
60
H&Ocirc;TE_EN_RACK 38
I
N
nœuds
agrandissement d'un cluster 74
configuration des fichiers de sp&eacute;cification de
cluster 70
d&eacute;finition des attributs 91
distribution 57
nœuds clients pour Hadoop 37
nœuds Hadoop
connexion 11
mots de passe 11
nœuds master pour Hadoop 37
nœuds worker pour Hadoop 37
nom d'h&ocirc;te, g&eacute;n&eacute;rer pour les nœuds de
clusters 26
noms de cluster 64
informations sur le serveur, ajout 14, 20
Interface de ligne de commande, acc&egrave;s 9
O
J
outil de conversion convert-hadoop-conf.rb 75,
96
Java Runtime Environment (JRE) 9
L
LDAP, g&eacute;rer les utilisateurs 29
LDAP, fichier de configuration 29
liste de, gestionnaires d'applications 15, 22, 83
liste des gestionnaires d'applications 15, 22, 83
M
machine virtuelle de nœud de cluster 80
machines virtuelles, tailles pr&eacute;d&eacute;finies pour
Serengeti 91
mappage des fichiers, rack/h&ocirc;tes 39
m&eacute;moire, mise &agrave; l'&eacute;chelle 75
mgmtvmcfg get 108
mgmtvmcfg modify 108
mise &agrave; l'&eacute;chelle
clusters 74, 104
CPU 75
param&egrave;tres, configuration 105
param&egrave;tres, r&eacute;initialisation 104
RAM 75
mise &agrave; l'&eacute;chelle &eacute;lastique, configuration de
cluster 104
mise &agrave; l'&eacute;chelle manuelle, configuration de
cluster 104
mode maintenance 81
mode maintenance, entrer 81
modes utilisateur, changer 32
modifier un gestionnaire d'applications 15, 21
118
mots de passe, nœuds Hadoop 11
mots de passe d'administrateur de nœuds 67
mots de passe pour nœuds de clusters 67
P
param&egrave;tre description 14, 20
param&egrave;tres LDAP, modifier 33, 112
param&egrave;tres LDAP, modifier 33
partages d'E/S 104, 105
passer d'un seul coup en mode virtuel 63, 67
performances de clonage 27
pools de ressources
affichage 86
ajout 23
suppression 23
pr&eacute;parer OneFS en tant que cluster HDFS
externe 43
pr&eacute;sentation, gestionnaires d'applications 13, 19
R
RACK_EN_RACK 38
reconfiguration
groupes de nœuds 78
r&eacute;seaux 25
r&eacute;cup&eacute;ration &agrave; partir d'un disque d&eacute;fectueux 80,
103
r&eacute;cup&eacute;rer 80
redimensionner 27
redimensionner des clusters Hadoop 27
R&eacute;f&eacute;rence des commandes de l'interface de
ligne de commande 97
VMware, Inc.
Index
r&eacute;seaux
affichage du statut 86
ajout 24
ajout d'adresses IP 25
attribution aux clusters 69
suppression 25
ressources vSphere
attribution aux clusters 69
pools de ressources 23
r&ocirc;les, liste 16, 21, 84
V
vSphere Fault Tolerance (FT) 78
vSphere High Availability (HA) 45, 78
S
script serengeti-maintenance.sh 81
se connecter aux nœuds Hadoop 11
segments d'adresse IP 25
serengeti-maintenance.sh 81
Serengeti, services, connexion 9
serveur de gestion de logiciels, ajout 14, 20
serveurs Serengeti
connexion &agrave; 106
d&eacute;connexion de 107
Single Sign-On (SSO) 9
strat&eacute;gies de placement 39, 57
suppression
Banques de donn&eacute;es 24, 107
clusters 78, 101
pools de ressources 23
r&eacute;seaux 25
Voir aussi suppression
suppression de gestionnaires d'applications 16,
22
surveillance, environnement Big Data
Extensions 83
surveillance des gestionnaires d'applications 15,
22, 83
T
t&acirc;ches MapReduce, clusters HBase 45
tailles des machines virtuelles pr&eacute;d&eacute;finies 91
topologie
ajout 41
cluster 38
commandes 111
contraintes 53
strat&eacute;gies de placement 39
topologies des racks 41
type de DNS 26
U
usermgmtserver 112
usermgmtserver modify 112
utilisateurs et comptes d'utilisateurs, gestion 29
VMware, Inc.
119
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
120
VMware, Inc.
">
Bonjour ! Je suis un chatbot IA spécialement formé pour vous aider avec le VMware vSphere Big Data Extensions 2.3 Manuel utilisateur. J'ai soigneusement étudié le document et je peux vous aider à trouver les informations dont vous avez besoin ou expliquer le contenu en termes clairs et simples. Que vous recherchiez des conseils sur des fonctionnalités spécifiques, des étapes de dépannage ou une utilisation générale, n'hésitez pas à poser vos questions. Plus vous fournissez de détails sur vos préoccupations ou besoins, plus je pourrai vous aider avec précision et efficacité.