Loading AI tools
来自维基百科,自由的百科全书
Apache Hadoop是一款支援數據密集型分佈式應用程式並以Apache 2.0許可協定發佈的開源軟體框架,有助於使用許多電腦組成的網路來解決資料、計算密集型的問題。基於MapReduce計算模型,它為巨量資料的分散式儲存與處理提供了一個軟體框架。所有的Hadoop模組都有一個基本假設,即硬體故障是常見情況,應該由框架自動處理[3]。
Apache Hadoop的核心模組分為儲存和計算模組,前者被稱為Hadoop分散式檔案系統(HDFS),後者即MapReduce計算模型。Hadoop框架先將檔案分成資料塊並分散式地儲存在叢集的計算節點中,接著將負責計算任務的代碼傳送給各節點,讓其能夠並列地處理資料。這種方法有效利用了資料局部性,令各節點分別處理其能夠訪問的資料。與傳統的超級電腦架構相比,這使得資料集的處理速度更快、效率更高[4][5]。
Apache Hadoop框架由以下基本模組構成:
Hadoop 一詞通常代指其基本模組和子模組以及生態系統[8],或可以安裝在 Hadoop 之上的軟體套件的集合,例如Apache Pig、Apache Hive、Apache HBase、Apache Phoenix、Apache Spark、Apache ZooKeeper、Cloudera Impala、Apache Flume、Apache Sqoop、Apache Oozie和Apache Storm[9]。
Apache Hadoop的MapReduce和HDFS模組的靈感來源於Google的MapReduce和Google File System論文[10]。
Hadoop 框架本身主要是用Java程式語言編寫的,也包括了一些C語言編寫的本機代碼和Shell指令碼編寫的命令列實用程式。儘管MapReduce Java代碼很常見,但任何程式語言都可以與Hadoop Streaming一起使用來實現使用者程式的map和reduce部分[11]。Hadoop 生態系統中的其他專案實現了更為豐富的使用者介面。
其他知名使用者包括[13]:
昇陽電腦的Sun Grid Engine可以用來排程Hadoop Job。[14][15]
威斯康辛大學麥迪遜分校的Condor計算機叢集軟體也可以用作Hadoop Job的排程。[16]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.