From Wikipedia, the free encyclopedia
Apatxe Hadoop és un entorn de treball per a programari, baix llicència lliure, per a programar aplicacions distribuïdes que manegin grans volums de dades (big data). Permet a les aplicacions treballar amb milers de nodes en xarxa i petabytes de dades. Hadoop es va inspirar en els documents de Google sobre MapReduce i Google File System (GFS).
Tipus | entorn de treball |
---|---|
Versió inicial | 1 d'abril de 2006 |
Versió estable | Apache Hadoop 3.3.5 / 22 de març 2023 |
Llicència | Llicència Apache, versió 2.0 GNU General Public License |
Característiques tècniques | |
Sistema operatiu | multiplataforma i POSIX |
Plataforma | Màquina Virtual Java |
Escrit en | Java |
Equip | |
Creador/s | Doug Cutting i Mike Cafarella |
Desenvolupador(s) | Apache Software Foundation |
Més informació | |
Lloc web | hadoop.apache.org (anglès) |
Stack Exchange | Etiqueta |
Guia d'usuari | Guia d'usuari |
| |
Hadoop és un projecte de l'organització Apatxe que està sent construït i usat per una comunitat global de contribuents, mitjançant el llenguatge de programació Java. Yahoo! ha estat el major contribuent al projecte, i usa Hadoop extensivament en el seu negoci.
Hadoop consisteix bàsicament en el Hadoop Common, que proporciona accés als sistemes d'arxius suportats per Hadoop. El paquet de programari The Hadoop Common conté els arxius .jar i els scripts necessaris per a executar Hadoop. El paquet també proporciona codi font, documentació, i una secció de contribució que inclou projectes de la Comunitat Hadoop.
Una funcionalitat clau és que per a la programació efectiva de treball, cada sistema d'arxius ha de conèixer i proporcionar la seva ubicació: el nom del rack (més precisament, del *switch) on està el node treballador. Les aplicacions Hadoop poden usar aquesta informació per a executar treball en el node on estan les dades i, en defecte d'això, en el mateix rack/switch, reduint així el trànsit de xarxa troncal (backbone traffic). El sistema d'arxius HDFS usa això quan replica dades, per a intentar conservar còpies diferents de les dades en racks diferents. L'objectiu és reduir l'impacte d'un tall d'energia de rack o de fallada d'interruptor de manera que fins i tot si es produeixen aquests esdeveniments, les dades encara puguin ser llegibles.
Un clúster típic Hadoop inclou un node mestre i múltiples nodes esclau. El node mestre consisteix en jobtracker (rastrejador de treball), tasktracker (rastrejador de tasques), namenode (node de noms), i datanode (node de dades). Un esclau o computi node (node de còmput) consisteixen en un node de dades i un rastrejador de tasques. Hadoop requereix tenir instal·lats entre nodes en el clúster JRE 1.6 o superior, i SSH.
Hadoop Distributed File System
El Hadoop Distributed File System (HDFS) és un sistema d'arxius distribuït, escalable i portàtil escrit en Java per al framework Hadoop. Cada node en una instància Hadoop típicament té un únic node de dades; un clúster de dades forma el clúster HDFS. La situació és típica perquè cada node no requereix un node de dades per a ser present. Cada node serveix blocs de dades sobre la xarxa usant un protocol de bloqueig específic per a HDFS. El sistema d'arxius usa la capa TCP/IP per a la comunicació; els clients usen RPC per a comunicar-se entre ells. El HDFS emmagatzema arxius grans (la grandària ideal d'arxiu és de 128 MB9), a través de múltiples màquines. Aconsegueix fiabilitat mitjançant replicat de dades a través de múltiples hosts, i no requereix emmagatzematge RAID en ells. Amb el valor de replicació per defecte, 3, les dades s'emmagatzemen en 3 nodes: dos en el mateix rack, i un altre en un rack diferent. Els nodes de dades poden parlar entre ells per a reequilibrar dades, moure còpies, i conservar alta la replicació de dades. HDFS no compleix totalment amb POSIX perquè els requeriments d'un sistema d'arxius POSIX difereixen dels objectius d'una aplicació Hadoop, perquè l'objectiu no és tant complir els estàndards POSIX sinó la màxima eficàcia i rendiment de dades. HDFS va ser dissenyat per a gestionar arxius molt grans.9 HDFS no proporciona Alta disponibilitat.
El 19 de febrer de 2008, Yahoo! Inc. va llançar el que pretenia era la més gran aplicació de producció Hadoop. El Yahoo! Search Webmap és una aplicació de Hadoop que s'executa en més de 10 000 nuclis Linux Clústers de ram i produeix dades que s'utilitzen actualment en tots els resultats de cerca de Yahoo!. El juny de 2009, Yahoo! va fer disponible el codi font de la versió de Hadoop que usa en producció.
A part de Yahoo!, altres organitzacions usen Hadoop per a executar còmputs enormes distribuïts. Algunes d'aquestes empreses inclouen
Hadoop pot usar-se també en granges de computadores i entorns d'alt rendiment. La integració amb Sun Grid Engine va ser llançada, i executar Hadoop en Sun Grid (el servei sota demanda de utility computing) és possible. En la implementació inicial de la integració, el programador de temps de CPU no sap la localització de les dades. Desafortunadament, això significa que el processament no és fet sempre en el mateix rack on estan les dades; això era una característica principal de la Rutin Hadoop. Una millor integració amb localització de dades es va anunciar durant la Sun HPC Programari Workshop '09.
Sun també té el projecte Hadoop Live CD OpenSolaris, que permet executar un clúster Hadoop completament funcional usant un live CD.
Per part seva, la tecnologia de Nutanix, també és capaç de suportar plataformes Hadoop, aportant els grans avantatges de la seva arquitectura (redundància, rendiments, enorme facilitat de gestió, etc), sense les dependències de storage habituals en aquestes infraestructures Cloud.
Programari similar: Google File System.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.