Guide de planification
Se lancer dans le Big Data
Comment aller de l'avant grâce à un déploiement réussi
Juin 2014
Pourquoi lire ce document
Ce guide de planification fournit des informations utiles et des conseils pratiques aux DSI qui souhaitent planifier et implémenter des initiatives d'analyse des Big Data, notamment :
• Paysage informatique actuel du Big Data, défis et opportunités associés à cette force perturbatrice
• Technologies de Big Data, avec un accent sur le framework
Apache Hadoop* et les analyses en mémoire
• Importance de mettre en place une infrastructure appropriée pour un déploiement Big Data optimal
• Trois étapes de base et checklist pour aider les DSI à planifier et implémenter leur propre projet de Big Data
Sommaire
Analyse des Big Data : paysage informatique actuel
trois étapes de base
Analyse des Big Data : paysage informatique actuel
L'engouement récent autour du Big Data est passé du phénomène de mode à une discussion plus posée. Avec des technologies encore en phase de maturation, le manque de compétences et des décalages dans la manière de travailler du département informatique et du reste de l'entreprise, la réalité montre que l'exploitation des Big Data n'est pas simple.
Même dans ces conditions, le Big Data reste très attirant.
Malgré une réaction défavorable de la part de septiques déçus par les promesses économiques du Big Data, les entreprises vont de l'avant. Par exemple, l'enquête menée par Intel en
2013 auprès de 200 DSI aux États-Unis montrait que plus de la moitié des personnes interrogées avaient déjà déployé ou
étaient en train de mettre en œuvre une distribution Apache
Hadoop*.
1
Maintenir le status quo représente un risque trop important de se faire devancer par les concurrents.
Aujourd'hui, les fournisseurs offrent de plus en plus de plates-formes et de solutions complètes prêtes pour l'entreprise, basées sur des innovations technologiques.
La discussion est passée de « Le Big Data a-t-il de la valeur ? »
à « Comment l'utiliser pour générer de la valeur et créer un avantage concurrentiel pour mon entreprise ? ».
Évolution du Big Data : analyses prédictives et Internet des objets
Les Big Data tirent principalement leur valeur des informations qu'elles produisent lorsqu'elles sont analysées, permettant aux entreprises de découvrir des tendances, de trouver un sens à ces tendances, de prendre des décisions et, au final, de répondre au monde avec intelligence. Alors que cette technologie gagne en maturité et que la discussion continue d'évoluer, les entreprises vont développer de nouveaux moyens de comprendre les données en opérationnalisant des approches qui étaient généralement hors de portée.
Par exemple, les entreprises se tournent vers les analyses prédictives pour les aider à intensifier leur engagement avec les clients, optimiser les processus et réduire les coûts d'exploitation. Ensemble, les flux de données en temps réel et les analyses prédictives (parfois désignées comme le traitement qui ne s'arrête jamais) peuvent offrir un avantage concurrentiel significatif. Pour en savoir plus, lisez le document
Présentation des analyses prédictives : nouvelle génération d'intelligence Big Data
.
Le Big Data, qu'est-ce que c'est exactement ?
L’expression Big Data fait référence à de gigantesques ensembles de données de plus grande taille (volume), plus diversifiés, comprenant des données structurées, semistructurées, et non structurées (variété) et arrivant plus vite (vitesse) que ce à quoi vous ou votre entreprise avez eu à faire face auparavant. Ce flot de données est généré par des appareils connectés, des PC et smartphones aux capteurs tels que des lecteurs RFID et caméras de circulation. De plus, ces données sont hétérogènes et se présentent sous de nombreux formats différents, texte, documents, images, vidéos, blogs, transactions, etc.).
L' Internet des objets (IoT) , c'est-à-dire les appareils connectés
à Internet qui se mettent en réseau et communiquent les uns avec les autres et avec le cloud, mène également l'innovation en matière d'analyse des Big Data. L'IDC estime que l'IoT impliquera 212 milliards d'« objets » d'ici à la fin 2020, 2 générant des quantités massives de données transmises
à grande vitesse. La majorité de ces données seront générées par des machines via des capteurs et déclencheurs embarqués reliés via des réseaux filaires et sans fil qui communiqueront en utilisant le même protocole de connexion
à Internet. Les données produites par l'homme à partir d'appareils comme des téléphones mobiles et des tablettes feront également partie de l'équation. Elles pourront servir à dévoiler des corrélations entre des événements, automatiser des systèmes intelligents et résoudre de nouveaux problèmes professionnels et sociaux plus complexes. Le document
Data Mining distribué et Big Data
décrit le point de vue d'Intel sur les données générées par les machines.
Pression accrue sur le département informatique
Face à un tel enjeu pour l'entreprise, les initiatives de Big Data ne peuvent pas laisser la place au hasard. Le département informatique doit travailler en étroite collaboration avec les responsables afin d'identifier les opportunités et avancer avec le support nécessaire. Le Big Data nécessite également de nouvelles compétences commerciales, techniques et analytiques pour modéliser des problèmes complexes, découvrir des points de vue, intégrer des systèmes, développer des bases de données massives et administrer des structures logicielles distribuées.
3
Centre Intel IT
Guide de planification | Se lancer dans le Big Data
Au total, l'adoption d'une solution d'analyse des Big Data implique trois étapes de base. Leur ordre est important, même si les activités se chevaucheront au cours du processus :
1. Détermination, avec les responsables de l'entreprise, des limites culturelles de l'implémentation, en interne et en externe.
2. Acquisition des compétences commerciales, technologiques et analytiques nécessaires
(par ex., data scientists, architectes système et ingénieurs spécialisés dans les données).
3. Identification des besoins technologiques et implémentation de la pile logicielle.
Ces trois étapes sont essentielles, mais ce guide se concentre sur l'implémentation des solutions de Big Data (étape 3).
L' International Institute for Analytics constitue une excellente source de ressources pour les deux autres étapes.
Comprendre les technologies Big Data
Les outils et l'infrastructure traditionnels ne traitent pas efficacement les ensembles de données plus volumineux, variés et générés rapidement. Pour que les entreprises puissent exploiter toutes les possibilités du Big Data, elles doivent trouver une nouvelle approche pour capturer, stocker et analyser leurs données.
Les technologies Big Data utilisent la puissance d'une grille distribuée de ressources de calcul, une architecture « Shared
Nothing », des infrastructures de traitement distribué et des bases de données non relationnelles pour redéfinir la façon dont les données sont gérées et analysées. Les innovations dans le domaine des serveurs et les solutions évolutives d'analyse en mémoire permettent d'optimiser la puissance de calcul, l'évolutivité, la fiabilité et le coût de revient pour les charges de travail analytiques les plus exigeantes.
Logiciel Apache Hadoop*
Le logiciel Apache Hadoop , framework open-source complet pour le Big Data, représente l'une des meilleures approches pour traiter d'importants ensembles de données variés. Le framework
Hadoop fournit un modèle de programmation simple pour le traitement distribué d'ensembles de données volumineux. Il inclut le système de fichiers distribué Apache* Hadoop (HDFS*), une structure de planification des tâches appelée Apache
Hadoop YARN et une structure de traitement parallèle appelée
Apache Hadoop MapReduce. Plusieurs composants supportent l'ingestion de données (service Apache Flume*), les requêtes et analyses (logiciels Apache Pig*, Apache Hive* et Apache
HBase*), la coordination des workflows (Apache Oozie), ainsi que la gestion et la surveillance du cluster de serveurs sous-jacent
(logiciel Apache Ambari*). Ensemble, les composants logiciels
Apache créent un puissant framework pour traiter et analyser en lots des données dispersées pour des analyses historiques.
Pile logicielle
Selon vos besoins, la pile logicielle de votre solution Big Data inclut une infrastructure hautes performances alimentant une combinaison de frameworks de traitement distribué comme
Apache Hadoop, des bases de données non relationnelles et relationnelles, ainsi que des applications analytiques.
D'un point de vue fonctionnel, ces technologies se complètent et fonctionnent en synergie pour créer une plate-forme
Big Data flexible qui peut également exploiter l'architecture de gestion des données existante. Par exemple, l'analyse historique Hadoop* peut être transférée aux bases de données analytiques ou intégrées aux données structurées dans les entrepôts de données traditionnels de l'entreprise
(EDW) pour une analyse plus poussée.
Experts d'Apache Hadoop
*
Pour vous renseigner sur Apache Hadoop* et ses composants, rien ne vaut le témoignage direct d'experts très engagés dans la communauté opensource et ses travaux de développement. Écoutez en podcast les entretiens avec des leaders de la communauté qui expliquent le fonctionnement d'Apache Hadoop MapReduce, du système HDFS*
Apache* Hadoop*, d'Apache Hive*, Apache Pig* et HCatalog, le rôle de chaque composant dans la pile Hadoop et les futurs développements. Chaque podcast est accompagné d'un fichier PDF.
4
Centre Intel IT
Guide de planification | Se lancer dans le Big Data
Le framework Hadoop est disponible via la communauté open-source sous forme de distribution packagée proposée par des éditeurs qui incluent des logiciels et services à valeur ajoutée (gestion, formation, support, etc.). Beaucoup de ces distributions s'intègrent aux EDW, systèmes de gestion des bases de données relationnelles (SGBDR) et autres systèmes de gestion des données pour permettre la circulation des données entre les clusters Hadoop et d'autres environnements afin d'élargir l'ensemble de données à traiter ou interroger.
Analyses en mémoire
Le calcul en mémoire peut avoir un impact important sur la puissance et la vitesse des analyses de Big Data. Gartner reconnaît sa valeur stratégique, l'identifiant comme l'une des
10 premières tendances technologiques pour 2013, en raison de sa capacité à offrir des possibilités de transformation aux entreprises.
3
Le calcul en mémoire permet de prendre des décisions informées en temps réel.
Le calcul en mémoire élimine l'un des principaux obstacles de nombreuses solutions de Big Data : la latence élevée et les goulets d'étranglement des E/S dus à l'accès aux données à partir d'une technologie de stockage sur disque. Il conserve toutes les données pertinentes dans la mémoire principale du système informatique, permettant un accès nettement plus rapide et une analyse immédiate avec des résultats quasi-immédiats. Grâce au calcul en mémoire, les entrepôts de données peuvent être placés en intégralité en mémoire
DRAM pour une analyse rapide d'un ensemble de données complet.
Ces systèmes intègrent applications analytiques et bases de données en mémoire sur des serveurs dédiés, ce qui convient parfaitement aux scénarios d'analyse impliquant énormément de ressources de calcul et le traitement des données en temps réel. La plate-forme SAP HANA* (développée conjointement par Intel et SAP), Oracle* Database In-Memory
Option pour Oracle 12c, les systèmes en mémoire IBM* avec accélération BLU et SAS* In-Memory Analytics sont des exemples de solutions de bases de données en mémoire.
Pour en savoir plus sur les produits disponibles et découvrir comment le calcul en mémoire change la façon dont les entreprises analysent leurs Big Data, lisez le livre blanc
Nouvelles analyses qui transforment le paysage concurrentiel
.
Intel et Cloudera unissent leurs forces
En mars 2014, Intel annonçait un investissement de taille (740 millions de dollars) dans Cloudera, fournisseur de la version logicielle Apache Hadoop* la plus populaire du marché. Intel annonçait
également le développement de sa propre distribution et une collaboration avec Cloudera en vue d'intégrer des optimisations de la distribution
Intel® pour Apache Hadoop (également désignée
Intel Data Platform) à la distribution de Cloudera, notamment à Apache Hadoop (CDH).
Ensemble, Intel et Cloudera continuent d'accélérer l'innovation par le biais de technologies open-source, avec un accent sur la sécurité, les performances, la gestion et les applications.
Cloudera travaille aussi en étroite collaboration avec Intel pour s'assurer que ses produits font la meilleure utilisation des technologies Intel dans le domaine des centres de données. Enfin, les deux sociétés travaillent sur des technologies Hadoop* de base pour faire avancer le framework logiciel et encourager les développeurs open-source à innover.
Pour de plus amples informations sur CDH, visitez fr.cloudera.com
.
Calcul en mémoire : puissance et vitesse supérieures
Le calcul en mémoire est présent depuis longtemps sous la forme de grilles de données distribuées et de vastes installations onéreuses. Les systèmes actuels sont plus rapides, plus puissants et plus rentables.
Pourquoi ? Conformément aux prévisions de la loi de Moore, le coût de la mémoire continue de chuter
(celui de la mémoire DRAM et flash NAND ayant considérablement diminué). Dans le même temps, le nombre de processeurs par puce augmente.
Avec la famille de processeurs Intel® Xeon® E7 v2, un serveur quadriprocesseur peut être configuré avec jusqu'à 6 téra-octets (To) de mémoire et un serveur octoprocesseur avec jusqu'à 12 To. Cette capacité suffit à conserver les bases de données les plus volumineuses dans la mémoire d'un seul serveur.
Associées à des innovations dans le domaine des serveurs (par exemple, gains de performances grâce
à la technologie Hyper-Threading) et à la maturation des plates-formes logicielles analytiques, toutes ces améliorations concourent à rendre les architectures de bases de données en mémoire évolutives plus abordables.
5
Centre Intel IT
Guide de planification | Se lancer dans le Big Data
Bases de données NoSQL
Ces bases de données non relationnelles, qui se présentent sous la forme de quatre types de magasins différents
(clé-valeur, colonne, graphe ou document) fournissent un stockage hautes performances et haute disponibilité à l'échelle du Web. Elles permettent de traiter des flux de données massifs, ainsi que des types de schémas et de données flexibles, avec des temps de réponse rapides.
Les bases de données NoSQL utilisent une architecture distribuée tolérante aux pannes, qui garantit la fiabilité et l'évolutivité du système. Apache HBase, Apache Cassandra*,
MongoDB* et Apache CouchDB* sont des exemples de bases de données NoSQL.
Bases de données analytiques Colonnes
Ces bases de données basées sur des grilles stockent les données dans des colonnes (pas dans des lignes), réduisant le nombre d'éléments à lire pendant le traitement des requêtes et accélérant l'exécution de nombreuses requêtes simultanées. Il s'agit d'environnements en lecture seule qui améliorent le prix, les performances et l'évolutivité des SGBDR conventionnels. Elles conviennent aux EDW et autres applications impliquant beaucoup de requêtes, et sont optimisées pour le stockage et la récupération d'analyses avancées. Les plates-formes analytiques SAP*
Sybase* IQ, ParAccel* et HP* Vertica* s'appuient sur des bases de données colonnes.
Bases de données et outils analytiques Graphes
Les bases de données graphes représentent un type de base de données NoSQL qui gagne en importance.
Elles sont particulièrement utiles pour les données hautement connectées dans lesquelles les relations sont plus nombreuses ou plus importantes que les entités individuelles. Les graphes sont des structures flexibles qui facilitent la connexion et la modélisation des données.
Ils sont plus rapides à interroger, plus intuitifs à modéliser et visualiser. La croissance des Big Data est par nature en grande partie imputable aux graphes.
Les bases de données graphes fonctionnent seules ou avec d'autres outils (tels que : visualisation, analyse de graphes, apprentissage automatique). Par exemple, avec l'apprentissage automatique (machine learning), elles servent à explorer et prévoir des relations pour résoudre une série de problèmes.
Déployer des solutions Big Data
Le déploiement de solutions de Big Data implique une préparation attentive de l'infrastructure. Les équipements matériels et les logiciels choisis au moment de la conception peuvent avoir un impact significatif sur les performances et le coût de revient. Pour optimiser ce processus, le département informatique doit s'assurer que l'infrastructure est adaptée à l'entreprise, mais aussi que les logiciels Hadoop et analytiques sont optimisés et configurés pour offrir les meilleures performances.
Une plate-forme Big Data flexible, extensible
Avec une plate-forme Big Data flexible et extensible, le département informatique peut créer les fonctions dont l'entreprise a besoin, tout en choisissant les systèmes les plus rentables pour gérer chaque cas d'utilisation. Les trois modèles d'utilisation suivants se complètent pour offrir plus de valeur.
Extraction, transformation et chargement (ETL)
Les outils d'extraction, transformation et chargement (ETL,
Extract, Transform, and Load) agrègent, pré-traitent et stockent les données, mais les solutions ETL traditionnelles ne gèrent pas les volumes, la vitesse et la diversité qui caractérisent les
Big Data. Dans la mesure où la plate-forme Hadoop stocke et traite les données dans un environnement distribué,
Hadoop décompose les données entrantes en morceaux et gère le traitement des gros volumes en parallèle. L'évolutivité inhérente à Hadoop accélère les tâches ETL, pour des analyses sensiblement plus rapides. Pour vous renseigner sur l'utilisation des outils ETL avec Hadoop, lisez le livre blanc
Extract, Transform, and Load Big Data with Apache Hadoop*
.
Requêtes interactives
En associant le framework Hadoop à un EDW récent basé sur une architecture de traitement massivement parallèle
(MPP, Massively Parallel Processing), vous étendez votre plate-forme Big Data pour gérer les requêtes interactives et les analyses plus avancées. Hadoop peut ingérer et traiter de larges volumes de données diversifiées diffusées en streaming et les charger dans l'EDW pour des requêtes, analyses et reporting SQL (Structured Query Language) ad hoc. Comme
Hadoop traite une large variété de types de données, les entrepôts EDW sont enrichis de données qu'ils ne pouvaient traditionnellement pas stocker. De plus, les données peuvent
être stockées beaucoup plus longtemps dans l'infrastructure
Hadoop, ce qui vous permet de fournir à l'EDW des données plus granulaires et détaillées pour des analyses très fidèles.
6
Centre Intel IT
Guide de planification | Se lancer dans le Big Data
Analyses prédictives
L'analyse prédictive dégage davantage de valeur des données en utilisant des données historiques pour prédire ce qui pourrait se passer à l'avenir. Le département informatique d'Intel (Intel IT) recommande d'utiliser un EDW basé sur une architecture MPP capable de réaliser rapidement des analyses prédictives complexes avec un cluster Hadoop pour créer un outil ETL rapide, évolutif et abordable. Le cluster Hadoop peut
également être étendu avec des outils et d'autres composants pour effectuer des fonctions de traitement et d'analyse supplémentaires. Vous trouverez plus de détails sur ce modèle d'utilisation dans le livre blanc
Analyses prédictives et requêtes interactives sur les Big Data
.
Plate-forme Big Data d'Intel IT
Intel IT et les différentes divisions d'Intel ont développé conjointement les cas d'utilisation du Big Data. Ils ont donc associé des éléments des deux premiers modèles d'utilisation
à l'analyse prédictive pour créer une infrastructure analytique hybride flexible.
Intel IT utilise Hadoop pour transférer l'ingestion, la transformation et l'intégration des données non structurées des médias sociaux, du trafic Web et des journaux des capteurs vers un EDW basé sur une architecture MPP.
En ajoutant une structure aux données hétérogènes dans
Hadoop durant l'extraction et la transformation, puis en les chargeant dans l'EDW, les utilisateurs peuvent appliquer des outils traditionnels de Business Intelligence (BI) et d'analyse pour créer des requêtes interactives et d'autres analyses avancées.
Intel IT déploie le logiciel Hadoop exécuté sur la famille de processeurs Intel® Xeon® E5 pour l'ingestion et la mise en cache de données hétérogènes, l'indexage Web et l'analyse des médias sociaux. Hadoop filtre les données afin de permettre leur analyse et les transfère à l'appliance d'entrepôt de données.
L'appliance d'entrepôt de données est basée sur une architecture MPP. Elle permet d'effectuer rapidement des analyses prédictives complexes et des explorations de données interactives pour des résultats quasiment en temps réel. Cette solution tierce s'appuie sur la famille de processeurs
Intel Xeon E7 v2 pour fournir des performances et une disponibilité élevées à un coût relativement bas.
Cette appliance s'intègre aux solutions de BI existantes et prend en charge des outils analytiques avancés comme le package statistique R.
Intel IT a encore étendu sa plate-forme Big Data en développant un moteur en interne pour fournir en continu des services d'analyses prédictives. Le département a d'ores et déjà implémenté un service de recommandation en temps réel. Pour ce service, l'équipe chargée de la BI a développé des algorithmes prédictifs en utilisant la bibliothèque de data mining Apache Mahout*. Ces algorithmes agissent sur les données historiques stockées dans Hadoop, puis transfèrent les résultats dans la base de données NoSQL
Cassandra*. Le logiciel Cassandra assure la récupération rapide à faible latence nécessaire aux scénarios d'utilisation en temps réel. Quand un utilisateur transmet une requête en ligne, les résultats sont récupérés dans la base de données
Cassandra et combinés à des données contextuelles (comme la saisie et l'emplacement de l'utilisateur) pour fournir des recommandations appropriées en temps réel.
Afin d'offrir la réactivité extrême nécessaire à l'analyse en temps réel d'énormes volumes de données, Intel IT a conduit des tests pour déterminer la plate-forme optimale pour une solution BI en mémoire hautes performances rentable. Le document
Configurer une plate-forme BI en mémoire pour des performances extrêmes
décrit les bonnes pratiques permettant de créer une solution optimale (vitesse des serveurs, nombre de cœurs de processeurs, taille de la mémoire cache) basée sur des serveurs avec processeurs
Intel Xeon.
7
Centre Intel IT
Guide de planification | Se lancer dans le Big Data
Plate-forme Big Data flexible d'Intel IT
Quand de nouveaux cas d'utilisation sont développés, Intel IT peut étendre la plate-forme Big Data de la société.
L'ajout de capacités permet d'exécuter les charges de travail sur l'architecture dont le coût est le plus faible.
Plate-forme
MPP
• Solution tierce
• Traitement plus rapide que les systèmes traditionnels
• Avec processeurs Intel® Xeon® E7
Moteur d'analyses prédictives
• Développé en interne
• Service prédictif en continu, en temps réel
• Avec processeurs Intel Xeon E7
Framework Apache Hadoop*
• Optimisé pour les processeurs Intel Xeon E5, SSD Intel et Intel 10 gigabit Ethernet
• Système de fichiers distribué pouvant évoluer linéairement
• Base de données NoSQL Apache HBase*
Infrastructure pour le framework Hadoop*
Serveurs
Le principe de fonctionnement du framework Hadoop consiste à placer les ressources de calcul à proximité des données. Dans ce contexte, le framework est généralement exécuté sur de vastes clusters de serveurs créés avec du matériel standard. Les serveurs avec processeurs Intel Xeon lui permettent d'évoluer facilement. Associé à des platesformes serveurs standard, le framework Hadoop sert de base à une plate-forme analytique hautes performances rentable pour les applications parallèles.
D'un point de vue coût/bénéfices, les serveurs équipés de deux processeurs Intel Xeon E5 représentent le choix optimal pour la plupart des charges de travail Apache
Hadoop. Ces serveurs sont généralement plus efficaces pour les environnements distribués que les plates-formes multiprocesseurs à grande échelle. Ils délivrent des performances exceptionnelles et conviennent mieux à l'équilibrage de charge et au débit parallèle que les serveurs monoprocesseurs plus petits. En outre, ces processeurs intègrent des technologies qui accélèrent le cryptage, réduisent la latence et augmentent la bande passante.
Certaines charges de travail ETL (comme le tri de données simples) ne nécessitent pas la puissance de traitement des processeurs Intel Xeon. Vous pouvez donc les exécuter plus efficacement sur des microserveurs avec processeurs
Intel® Atom™ C2000 . Ces puces consomment extrêmement peu d'énergie (6 watts) et fournissent une densité élevée.
Les processeurs Intel Xeon et Intel Atom supportent la mémoire ECC (Error-Correcting Code), qui détecte et corrige automatiquement les erreurs de mémoire, souvent sources de corruption des données et d'indisponibilité des serveurs.
Un cluster Apache Hadoop dispose d'une grosse capacité de mémoire (généralement 64 giga-octets [Go] ou plus par serveur), faisant de la mémoire ECC un composant essentiel.
8
Centre Intel IT
Guide de planification | Se lancer dans le Big Data
Processeurs Intel® pour le framework Apache Hadoop*
Intel propose plusieurs processeurs pour des déploiements Apache Hadoop* hautes performances rentables.
Famille de processeurs
Intel® Xeon® E5 v2
Famille de processeurs Intel Atom™
• Basés sur la microarchitecture Ivy Bridge qui utilise les transistors
3D Tri-porte 22 nanomètres (nm) d'Intel pour des performances et un rendement énergétique supérieurs
• Évolutivité pour s'adapter aux charges de travail fluctuantes et à la demande croissante de ressources réseau/de stockages
• Amélioration des performances et E/S pour augmenter et équilibrer les performances globales et optimiser le rendement des serveurs
• Bande passante élevée, latence faible pour les applications de calcul intensif
• Cryptage/décryptage rapide pour encourager la protection systématique des données
• Mémoire ECC
• Support des produits réseau 10 GbE (10 gigabit Ethernet) intégrés et infrastructure de centre de données simplifiée
• Surveillance et gestion de la consommation au niveau des serveurs et du centre de données pour optimiser la consommation d'énergie
• Performances pour les applications mono et multithreads, notamment de calcul intensif
• Support des solutions ouvertes, interopérables
• Performances pour les charges de travail évolutives légères
• Système monopuce (SoC) offrant une densité extrême qui optimise l'espace des racks
• Très basse consommation (6 watts)
• Mémoire ECC
Mise en réseau et stockage
Les plates-formes serveurs Big Data profitent des améliorations spectaculaires réalisées dans le domaine des ressources courantes de calcul et stockage. Les solutions
10 GbE (10 gigabit Ethernet) viennent les compléter pour créer un système équilibré. L'augmentation de bande passante associée à la technologie 10 GbE est essentielle pour l'importation et la duplication de vastes ensembles de données entre les serveurs. Les solutions 10 GbE d'Intel fournissent des connexions haut débit, tandis que les unités de stockage SSD d'Intel apportent des performances et vitesses supérieures aux disques durs pour le stockage brut.
Pour améliorer l'efficacité, les solutions de stockage doivent prendre en charge des capacités avancées comme la compression, le cryptage, la hiérarchisation automatisée des données, la déduplication des données, le codage à effacement et le provisionnement léger.
Toutes ces fonctions sont désormais gérées par la famille
9
Centre Intel IT
Guide de planification | Se lancer dans le Big Data de processeurs Intel Xeon E5. Renseignez-vous sur la conception de clusters Hadoop équilibrés et rentables en lisant le livre blanc Clusters Hadoop sur 10 GbE .
Intel a réalisé un nombre considérable de tests en utilisant des serveurs avec processeurs Intel Xeon E5 comme plate-forme de référence pour des clusters Hadoop. Une
équipe composée d'experts en Big Data, réseau et stockage a mesuré les performances Apache Hadoop avec différentes combinaisons de composants réseau et de stockage.
L'équilibrage des ressources de calcul, de stockage et réseau s'est traduit par un net gain de performances. Selon les bancs d'essai TeraSort, le temps de traitement est passé de
4 heures à 12 minutes , c'est-à-dire des résultats quasiment en temps réel.
4, 5, 6
Pour plus d'informations sur les clusters
Hadoop hautes performances basés sur les technologies d'Intel, lisez le livre blanc
Technologies Big Data pour des résultats quasiment en temps réel
.
Infrastructure pour les solutions analytiques en mémoire
Serveurs
Le logiciel Hadoop peut ingérer et préparer de vastes ensembles de données hétérogènes, mais les analyses avancées (surveillance, requêtes interactives, analyses prédictives) requièrent une infrastructure plus puissante.
De nombreux fournisseurs proposent des entrepôts de données MPP modulaires qui servent d'appliances.
Ces appliances avec logiciels pré-intégrés simplifient les déploiements et offrent des ressources optimisées pour le calcul, la mémoire, les E/S et le stockage. Les outils intégrés de gestion des données et d'analyse avancée fournissent de nouveaux moyens de travailler sur vos données. De nombreuses solutions sont également compatibles avec votre environnement BI et analytique existant.
Les applications intensives peuvent nécessiter une appliance d'analyse en mémoire qui regroupe les bases de données et les outils d'analyse dans le même système. Ces solutions sont parfaites pour le traitement des événements complexes
(CEP, Complex Event Processing) et d'autres applications en temps réel. Les serveurs équipés de processeurs
Intel Xeon E7 v2 fournissent la mémoire, les ressources d'exécution et la fiabilité nécessaires à ces solutions en mémoire déployées à l'échelle de l'entreprise. Par exemple, la capacité en mémoire est jusqu'à trois fois supérieure à celle de la génération précédente,
7
et les performances des bases de données peuvent être améliorées de jusqu'à
148 fois (14 700 %) grâce au logiciel IBM DB2 10.5 avec accélération BLU pour des requêtes réactives.
4, 8
Les serveurs quatre sockets peuvent être configurés avec jusqu'à 6 To de mémoire et les un serveurs huit sockets avec jusqu'à 12 To.
Enfin, comme les systèmes en mémoire gèrent en général des ensembles de données plus vastes et des charges de travail plus évolutives sur chaque serveur que les solutions traditionnelles, ils fournissent l'intégrité des données et la disponibilité élevée nécessaires aux processus stratégiques.
Processeurs Intel® pour les analyses en mémoire
La famille de processeurs Intel® Xeon® E7 v2 accélère les analyses impliquant des charges de données intensives et des bases de données en mémoire.
• Basés sur la technologie de transistors 3D Tri-porte 22 nanomètres (nm) d'Intel pour des performances et un rendement énergétique supérieurs
• Vaste capacité mémoire :
- Configurations quadi et octoprocesseurs avec jusqu'à 1,5 To de mémoire par processeur, soit jusqu'à
6 ou 12 To par serveur
- Jusqu'à trois barrettes de mémoire DIMM par canal (DPC) et jusqu'à huit canaux (jusqu'à 24 DIMM au total) ; capacité de chaque DIMM jusqu'à 64 Go ; DIMM à charge réduite (LR-DIMM)
- Évolutivité au-delà de huit processeurs avec un contrôleur de nœuds tiers (OEM)
• Capacité de cache supérieure avec jusqu'à 37,5 Mo de cache niveau 3 (L3) par processeur
• Jusqu'à 50 % de cœurs et threads en plus par rapport à la génération précédente de processeurs (jusqu'à
60 cœurs et 120 threads dans un serveur quatre sockets pour l'exécution rapide de transactions simultanées et les requêtes complexes)
• Bande passante des E/S jusqu'à quatre fois améliorée
§
par rapport à la génération précédente de processeurs
• Performances pour les applications mono et multithreads, notamment de calcul intensif et les applications techniques
• Capacité et flexibilité supplémentaires pour le stockage et les connexions réseau grâce aux ports PCI Express*
(PCIe*) 3.0 intégrés, bande passante améliorée et supports des unités SSD PCIe
• Fonctionnalités RAS (fiabilité, continuité de service et maintenance) avancées pour améliorer l'intégrité des données et la disponibilité pour les tâches analytiques stratégiques grâce à la technologie Intel® Run Sure
‡
§
Aucun ordinateur ne saurait fournir une fiabilité, une disponibilité ni un état de fonctionnement absolu. Le bénéfice de la technologie Intel® Run Sure requiert une configuration spécifique, notamment un processeur Intel® et des technologies qui la gèrent. Les fonctions de sécurité intégrées à certains processeurs Intel® peuvent nécessiter des logiciels, équipements matériels, services supplémentaires et/ou une connexion Internet. Les résultats effectifs peuvent varier selon la configuration. Prenez contact avec le fabricant de votre ordinateur pour en savoir plus.
‡
Résultats basés sur des estimations réalisées en interne par Intel avec le processeur Intel® Xeon® E7-4890 v2 dont les performances ont été normalisées par rapport au processeur Intel Xeon E7-4870. Test 1R1W effectué avec un outil interne mesurant la bande passante.
10
Centre Intel IT
Guide de planification | Se lancer dans le Big Data
Optimisation et configuration permettant d'obtenir les meilleures performances
Intel joue un rôle majeur dans des initiatives open-source telles que Linux*, OpenStack*, KVM et Xen*. La société consacre également des ressources à l'analyse, au test et à la caractérisation des performances des solutions Hadoop, en interne et avec des partenaires tels que HP, Super Micro et Cloudera. Ces efforts techniques lui ont permis d'identifier de nombreux compromis pratiques (en termes de matériel, de logiciels et de paramètres) ayant des implications dans le centre de données. La conception d'une pile logicielle qui optimise la productivité, limite la consommation d'énergie et réduit le coût de revient peut permettre une utilisation optimale des ressources tout en minimisant les coûts d'exploitation.
Les paramètres de l'environnement Hadoop représentent un facteur clé pour obtenir le meilleur du reste des solutions matérielles et logicielles. Suivez les recommandations d'Intel, basées sur des tests approfondis en laboratoire et chez des clients avec une architecture basée sur des processeurs
Intel, pour configurer et gérer votre environnement Hadoop en vue d'améliorer ses performances et son coût.
L'utilisation de paramètres appropriés exige une longue préparation, car les besoins du système Hadoop dépendent des tâches ou charges de travail. Le temps passé à optimiser vos charges de travail spécifiques se traduira non seulement par des performances supérieures, mais également par un coût de revient inférieur pour l'environnement Hadoop.
Le livre blanc
Optimiser les déploiements Hadoop*
présente des paramètres spécifiques.
Bancs d'essai
Les bancs d'essai créent un base quantitative pour mesurer l'efficacité d'un système informatique. Intel a développé la suite HiBench comme un ensemble complet de bancs d'essai pour les environnements Hadoop.
9
Chaque mesure (10 au total) représente une charge de travail Hadoop importante impliquant diverses caractéristiques d'utilisation du matériel. HiBench inclut des microtests et des applications
Hadoop réelles représentatives d'une plus large gamme d'analyses comme l'indexage des recherches, l'apprentissage automatique et les requêtes. HiBench 2.2 est disponible sous forme de logiciel open-source avec la licence Apache 2.0.
Vous pouvez le télécharger, en savoir plus sur les charges de travail spécifiques et sur son utilisation à l'adresse https://github.com/intel-hadoop/HiBench .
Se lancer dans l'analyse des Big Data : trois étapes de base
Si vous êtes arrivé jusqu'ici, vous devez maintenant mieux comprendre le paysage informatique du Big Data, sa valeur pour les entreprises et les technologies qui peuvent vous aider à exploiter vos données structurées, semi-structurées et non structurées.
Vous disposez également d'une bonne vue d'ensemble des bases permettant de mettre en place l'infrastructure adaptée à vos initiatives Big Data.
Vous pouvez à présent débuter votre projet d'analyse des Big Data en suivant les trois étapes de base que nous avons décrites dans les premières pages de ce guide. Même si nous nous sommes surtout intéressés ici à l'aspect technologique et à l'étape 3, la liste suivante vous guidera dans les activités essentielles de chaque étape.
Étape 1 : comprendre l'impact culturel du Big Data sur votre entreprise.
• Déterminez ce que l'analyse des Big Data peut apporter à votre entreprise.
a
Discutez avec vos collègues (département informatique et utilisateurs métier).
a
Utilisez les ressources du Centre IT Intel dédiées au Big Data pour vous familiariser avec les technologies.
a
Étudiez les offres des fournisseurs.
a
Suivez les tutoriels et lisez la documentation offerts par Apache.
11
Centre Intel IT
Guide de planification | Se lancer dans le Big Data
• Collaborez avec les responsables de l'entreprise sur la stratégie et l'approche Big Data. Développez :
a
L'analyse de rentabilisation du projet Big Data
– L'analyse des Big Data apporte-t-elle une valeur ajoutée
à votre entreprise ? Quels défis permet-elle de relever ? a
Objectifs à court, moyen et long termes
– Quelles sont les principales phases pour atteindre vos objectifs de Big Data ?
a
Situation actuelle et future de votre infrastructure informatique
– Votre centre de données peut-il gérer la plate-forme Big Data ? Évaluez la technologie de votre centre de données et décrivez, si nécessaire, votre plan pour améliorer les ressources informatiques, de stockage et réseau.
a
Qualité des sources de données
– Quelles sont les principales sources de données en interne ? Quelles données supplémentaires pourriez-vous acheter ? Comment en garantir la qualité ?
a
Plate-forme et outils Big Data
– Quelle plate-forme allez-vous utiliser pour créer votre solution ? De quels logiciels et outils avez-vous besoin pour atteindre vos objectifs ?
a
Métriques de mesure de la réussite
– Comment allez-vous mesurer les performances du système ? Basez votre réussite sur le nombre de tâches soumises, traitées en parallèle et terminées efficacement.
• Travaillez avec les utilisateurs métier pour articuler les principales opportunités.
a
Identifiez et collaborez avec les utilisateurs métier (analystes, data scientists, responsables marketing, etc.) pour trouver les meilleures opportunités d'analyse des Big Data dans votre entreprise. Prenez par exemple un problème existant complexe, cher et impossible à résoudre avec vos sources de données et systèmes analytiques actuels.
Ou bien un problème qui n'a jamais été réglé car il implique de nouvelles sources de données non structurées.
a
Classez les opportunités par ordre de priorité et choisissez un projet avec un retour sur investissement perceptible.
Les questions suivantes vous aideront à déterminer le meilleur projet :
- Qu'est-ce que j'essaie d'accomplir ?
- Ce projet correspond-il aux objectifs métier stratégiques ?
- La direction soutient-elle le projet ?
- L'analyse des Big Data me fournira-t-elle des informations uniques par rapport aux outils analytiques plus traditionnels ?
- Quelles mesures serai-je en mesure de prendre à l'aide des résultats de mon projet ?
- Quel est le retour sur investissement potentiel pour mon entreprise ?
- Ce projet génèrera-t-il de la valeur en 6 à 12 mois ?
- Les données dont j'ai besoin sont-elles disponibles ? Quelles sont les sources actuelles ? Que faut-il acheter ?
- Les données sont-elles collectées en temps réel ou s'agit-il de données historiques ?
Étape 2 : embaucher les compétences nécessaires.
• Déterminez et planifiez les talents dont vous aurez besoin, au département informatique et dans le reste de l'entreprise.
a
Quelles sont les compétences nécessaires à l'accomplissement de l'initiative ? Ces ressources sont-elles disponibles en interne ?
a
Développerez-vous ces compétences au sein de l'entreprise ? Embaucherez-vous de nouveaux talents ?
Externaliserez-vous ces compétences ?
a
Où ces employés se trouveront-ils dans l'entreprise ? Dans le département informatique T?
12
Centre Intel IT
Guide de planification | Se lancer dans le Big Data
Étape 3 : implémenter la solution de Big Data.
• Développez un (des) cas d'utilisation pour votre projet.
a
Identifiez les cas d'utilisation nécessaires pour réaliser votre projet.
a
Déterminez les flux de données afin de définir la technologie et les capacités Big Data nécessaires pour résoudre le problème.
a
Déterminez les données à inclure et celles à omettre. Identifiez uniquement les données stratégiques qui fourniront des informations significatives.
a
Déterminez les relations entre les données et la complexité des règles métier.
a
Identifiez les requêtes et algorithmes analytiques requis pour gérer les résultats souhaités.
a
Déterminez si vous avez besoin d'outils analytiques avancés (par ex., requêtes interactives ou analyses prédictives) ou de flux de données en temps réel.
• Identifiez les écarts entre les capacités actuelles et futures.
a
Quels sont les autres exigences, en termes de qualité des données, pour collecter, nettoyer et agréger des données dans des formats exploitables ?
a
Quelles stratégies de gouvernance doivent être mises en place pour classer les données, définir leur pertinence, les stocker, les analyser et y accéder ?
a
Quelles capacités d'infrastructure (par ex., composants informatiques, stockage et outils réseau) faut-il mettre en place pour garantir l'évolutivité, une faible latence et des performances élevées ?
a
Faut-il ajouter des composants spécialisés comme une base de données NoSQL pour effectuer des recherches rapides sur de gros volumes de données hétérogènes ?
a
Si vous prévoyez un flux régulier de données en temps réel, de quelles autres capacités (infrastructure et mémoire) aurez-vous besoin ? Aurez-vous besoin d'une appliance analytique en mémoire MPP ? D'une solution CEP ?
a
Envisagez-vous d'utiliser le Cloud Computing comme modèle de distribution ? Quel type d'environnement cloud utiliserez-vous ? Privé, hybride, public ?
a
Comment les données seront-elles présentées aux utilisateurs ? Les résultats doivent être présentés dans un format facile à comprendre par tous les utilisateurs, des dirigeants aux informaticiens.
• Développez un environnement de test pour une version de production.
a
Adaptez des architectures de référence à votre entreprise. Dans le cadre du programme Intel Cloud Builders,
Intel collabore avec des partenaires de renommée internationale pour développer des architectures de référence pour le Big Data.
a
Définissez la couche présentation, la couche applications analytiques, l'entrepôt de données et, si nécessaire, les outils de gestion des données dans un cloud privé ou public.
a
Déterminez les outils que demandent les utilisateurs pour présenter les résultats de façon pertinente.
L'adoption des outils par les utilisateurs aura une influence sensible sur le succès global de votre projet.
13
Centre Intel IT
Guide de planification | Se lancer dans le Big Data
Ressources Intel pour en savoir plus
Outre les ressources déjà citées dans ce document, les contenus suivants vous fourniront des informations intéressantes.
Sites Web
Ressources supplémentaires concernant :
• Big Data : intel.fr/bigdata
• Famille de processeurs Intel Xeon E5 : intel.fr/xeone5
• Famille de processeurs Intel Xeon E7 : intel.fr/xeone7
À propos des plates-formes de Big Data
Accélérer les analyses Big Data grâce aux technologies Intel®
Ce document présente les technologies Intel que les entreprises peuvent utiliser pour faire évoluer leurs clusters Apache
Hadoop et gérer rapidement le volume croissant de données hétérogènes. L'utilisation d'un nombre inférieur de serveurs plus puissants peut entraîner une baisse significative des coûts d'exploitation. intel.com/content/www/fr/fr/big-data/big-dataanalysis-intel-technologies-paper.html
Big Data en entreprise pour un décisionnel plus efficace
Ce livre blanc rédigé par Intel IT décrit comment Intel met en place les systèmes et compétences permettant d'analyser les
Big Data pour améliorer l'efficacité des opérations et offrir un avantage concurrentiel. Intel IT, en partenariat avec différentes divisions d'Intel, déploient plusieurs études de faisabilité (proofs of concept) pour une plate-forme Big Data (détection des programmes malveillants, validation de conception des puces, intelligence de marché, système de recommandations, etc.). intel.com/content/www/fr/fr/it-management/intel-it-best-practices/mining-big-data-In-the-enterprise-for-better-businessintelligence.html
Extraire la valeur des Big Data
Cette fiche décrit comment le framework Apache Hadoop constitue une base que vous pouvez implémenter dès à présent pour un projet ciblé, puis le développer pour faire face à la croissance des besoins. http://software.intel.com/sites/default/files/ article/402151/extract-business-value-from-big-data.pdf
Enquête : analyse des Big Data (2013)
Lisez le rapport complet de cette enquête conduite par Intel en 2013 auprès de 200 DSI interrogés pour savoir comment les entreprises utilisent l'analyse des Big Data, ce dont elles ont besoin pour aller de l'avant et les implications pour l'industrie informatique. Les principaux résultats sont présentés dans cette vidéo intitulée “IT Managers Speak Out about Big Data
Analytics.” Cette enquête vient compléter l' enquête menée par Intel en 2012 sur le Big Data . intel.com/content/www/us/en/bigdata/big-data-analytics-2013-peer-research-report.html
Analyses prédictives : utilisez toutes vos données pour devancer vos concurrents
La façon dont vous analysez les Big Data est aussi importante que les données elles-mêmes. Cette fiche décrit la façon dont les entreprises peuvent implémenter de façon rentable une plate-forme de Big Data extensible pour des analyses descriptives, des requêtes interactives et des analyses prédictives. software.intel.com/sites/default/files/article/486773/sb-use-all-your-data-tocompete-and-win.pdf
Transformer les Big Data en valeur : stratégie pratique
Les innovations d'Intel dans les domaines des processeurs, des systèmes et des logiciels peuvent vous aider à déployer trois modèles d'utilisation (ETL avec Apache Hadoop, requêtes interactives et analyses prédictives sur la plate-forme Hadoop) et d'autres solutions Big Data aux performances, au coût et à la consommation optimisés. software.intel.com/sites/default/files/ article/402150/turn-big-data-into-big-value.pdf
14
Centre Intel IT
Guide de planification | Se lancer dans le Big Data
Notes
Les résultats ont été simulés et ne sont fournis qu'à titre d'information. Les résultats ont été calculés au moyen de simulations effectuées sur un simulateur ou modèle d'architecture. Une différence dans la configuration matérielle ou logicielle est ainsi susceptible d’avoir une incidence sur les performances effectives.
Les performances relatives sont calculées en attribuant la valeur de référence 1.0 aux résultats d'un banc d'essai, puis en divisant les résultats effectifs de la plate-forme de référence par celui des autres plates-formes et en leur attribuant un coefficient de performances relatif en corrélation avec le différentiel de performances trouvé.
Les compilateurs d'Intel peuvent optimiser ou non au même degré les microprocesseurs non Intel pour les optimisations qui ne sont pas uniques aux microprocesseurs Intel. Ces optimisations comprennent les jeux d’instructions SSE2, SSE3 et SSE3 ainsi que d’autres optimisations. Intel ne fournit aucune garantie quant à la disponibilité, la fonctionnalité ou l'efficacité des optimisations sur des microprocesseurs d'autres fabricants. Dans ce produit, les optimisations dépendantes du processeur sont conçues pour les processeurs Intel.
Certaines optimisations non spécifiques à la microarchitecture Intel sont réservées aux microprocesseurs Intel. Reportez-vous au guide de l'utilisateur et au guide de référence applicable pour obtenir davantage d'informations concernant les jeux d'instructions spécifiques couverts par cet avis. (Avis révision nº 20110804).
La numérotation des processeurs Intel® ne constitue pas une indication quantitative de leurs performances. Elle permet de différencier des modèles appartenant à une même famille (ligne) de processeurs, mais non pas à des familles différentes. Consultez intel.com/content/www/fr/ fr/processors/processor-numbers.html
à ce sujet.
1.
2.
3.
4.
5.
6.
Peer Research: Big Data Analytics: Intel’s 2013 IT Manager
Survey on How Organizations Are Using Big Data. Intel
(août 2013). intel.com/content/www/us/en/big-data/big-dataanalytics-2013-peer-research-report.html
“The Internet of Things Is Poised to Change Everything,
Says IDC.” Business Wire (3 octobre 2013). businesswire.com/ news/home/20131003005687/en/Internet-Poised-Change-
IDC#.UvFfLfldXzg
Elliott, Timo. “Why In-Memory Computing Is Cheaper and
Changes Everything.” Business Analytics (blog) (17 avril 2013). http://timoelliott.com/blog/2013/04/why-in-memorycomputing-is-cheaper-and-changes-everything.html
Les logiciels et charges de travail employés dans les tests de performance peuvent avoir été optimisés pour les microprocesseurs Intel®. Les tests de performance tels que
SYSmark* et MobileMark* portent sur des configurations, composants, logiciels, opérations et fonctions spécifiques.
Les résultats peuvent varier en fonction de ces facteurs. Pour l'évaluation d'un produit, il convient de consulter d'autres tests et d'autres sources d'informations, notamment pour connaître le comportement de ce produit avec d'autres composants.
Bancs d'essai TeraSort conduits par Intel en décembre 2012.
Paramètres personnalisés : mapred.reduce.tasks=100 et mapred.job.reuse.jvm.num.tasks=-1. Pour plus d'informations, visitez http://hadoop.apache.org/docs/current/api/org/apache/ hadoop/examples/terasort/package-summary.html
.
Configuration du cluster : un nœud de tête (nœud nom, suivi des postes),10 salariés (nœuds données, suivi des tâches), commutateur 10 Gigabit Cisco Nexus* 5020 10. Nœud de référence des salariés : serveurs Supermicro* SYS-1026T-
URF 1U avec deux processeurs Intel Xeon série X5690 à
3.47 gigahertz (GHz), 48 Go de RAM, disques durs SATA
700 Go 7200 tours/minute, carte réseau Intel Ethernet
Server I350-T2, logiciel Apache Hadoop 1.0.3, système d'exploitation Red Hat* Enterprise Linux 6.3, plate-forme
Oracle Java* 1.7.0_05. Nouveau système de base dans le
7.
8.
9. nœud des salariés : serveurs Dell* PowerEdge* R720 2U avec deux processeurs Intel Xeon E5-2690 à 2,90 GHz, 128 Go de
RAM. Nouvelle solution dans le nœud des salariés : SSD Intel série 520. Nouvelle carte réseau dans le nœud des salariés :
Intel Ethernet Converged Network X520-DA2. Nouveau logiciel dans le nœud des salariés : Intel Distribution pour
Apache Hadoop 2.1.1.
Sur une plate-forme quatre processeurs connectée en natif : processeur Intel® Xeon® E7 supportant 64 barrettes DIMM,
32 Go RDIMM max. par barrette ; processeur Intel Xeon E7 v2 supportant 96 barrettes DIMM, 64 Go RDIMM max. par barrette. Cette configuration permet une augmentation de 3x de la mémoire.
Performances de la base de données avec une solution en mémoire ; résultats basés sur un banc d'essai POPS (Proof of
Performance and Scalability) impliquant une base de données
10 To avec IBM DB2 : intel.com/content/www/us/en/big-data/ big-data-xeon-e7-v2-unlock-the-value-ibm-paper.html
. Les gains de performances représentent les valeurs cumulées de toutes les requêtes dans la charge de travail. Les résultats peuvent varier en fonction des charges de travail individuelles, des configurations et des conditions. Composants communs aux trois configurations : SUSE* Linux Enterprise Server 11
SP3 x86-64, 1 024 Go de mémoire, système de stockage
IBM XIV* Gen3 raccordé à Fibre Channel (FC) 8 Gbit/s via un commutateur SAN 8 Go avec un espace brut total de 111 To
(2 To x 12 disques/module x 11 modules XIV). Configuration de référence pour le "logiciel de génération précédente" :
IBM DB2 10.1, quatre processeurs Intel Xeon processor
E7-4870, système de stockage IBM XIV Gen3, solution
FC SAN répondant aux requêtes en environ 3,75 heures
- Configuration pour le "logiciel de nouvelle génération" :
IBM DB2 10.5 avec accélération BLU, quatre processeurs
Intel Xeon E7-4890 v2, tables en mémoire (1 To au total), répondant aux mêmes requêtes en environ 90 secondes.
Huang, Shengsheng, Jie Huang, Jinquan Dai, Tao Xie,
Bo Huang. The HiBench Benchmark Suite: Characterization
of the MapReduce-Based Data Analysis. IEEE (mars 2010).
15
Centre Intel IT
Guide de planification | Se lancer dans le Big Data
Approfondissez le sujet
Ce guide de planification vous est proposé par le Centre IT Intel® . Ce site est conçu pour vous fournir des informations simples qui aident les professionnels de l'informatique à mettre en œuvre leurs projets stratégiques (virtualisation, conception de datacenter, cloud, Big Data, cloud, sécurité des clients et de l'infrastructure, etc.) dans les délais.
Vous trouverez sur le site du Centre IT :
• Des guides de planification, des résultats d'enquêtes et d'autres ressources qui vous aideront à élaborer vos projets
• Des études de cas expliquant comment des entreprises ont relevé les défis auxquels vous êtes confronté
• Des informations sur les initiatives stratégiques du service informatique d'Intel en relation notamment avec le Cloud, la virtualisation et la sécurité
• Des informations concernant les manifestations et événements au cours desquels vous pourrez connaître l'avis d'experts en produits Intel et des professionnels du département informatique d'Intel
Plus d'infos sur intel.fr/ITCenter .
Partagez ce guide avec vos collègues
Avertissements
Document à titre informatif uniquement. CE DOCUMENT EST PROPOSÉ « EN L'ÉTAT », SANS GARANTIE QUELLE QU'ELLE SOIT, Y COMPRIS LES GARANTIES
CONCERNANT LA QUALITÉ MARCHANDE, L'ABSENCE DE CONTREFAÇON OU L'ADÉQUATION À UN USAGE PARTICULIER OU ENCORE QUI DÉCOULERAIENT D'UNE
PROPOSITION OU D'UN DEVIS, D'UNE SPÉCIFICATION OU D'UN CAHIER DES CHARGES OU BIEN D'UN ÉCHANTILLON. Intel décline toute responsabilité, y compris quant à l'éventuelle violation de droits de propriété de tierces parties, qui découlerait de l'utilisation des informations fournies par ces classifications. Celles-ci n'accordent aucune licence expresse, implicite ou autre sur un droit quelconque de propriété intellectuelle.
Copyright © 2014 Intel Corporation. Tous droits réservés. Intel, le logo Intel, Intel Atom, le logo Look Inside. et Xeon sont des marques commerciales d'Intel
Corporation aux États-Unis et/ou dans d'autres pays.
* Les autres noms et marques peuvent être revendiqués comme la propriété de tiers.
0614/RF/ME/PDF-USA 330278-001FR

Public link updated
The public link to your chat has been updated.