Ugrás a tartalomhoz

Apache Hadoop

Ellenőrzött
A Wikipédiából, a szabad enciklopédiából
(Hadoop szócikkből átirányítva)
Apache Hadoop

FejlesztőApache Software Foundation
Legfrissebb stabil kiadás2.6.2
(2015. október 28.)
Programozási nyelvJava
Operációs rendszerplatform-független
PlatformJava virtuális gép
Kategóriaszoftverkörnyezet
LicencApache Licenc 2.0
Az Apache Hadoop weboldala

Az Apache Hadoop egy nyílt forráskódú keretrendszer, amely adat-intenzív elosztott alkalmazásokat támogat. Nagy mennyiségű alacsony költségű, általánosan elérhető hardverből épített szerverfürtök építését teszi lehetővé. A Hadoop a Google MapReduce és a Google File System leírásaiból készült.

Történet

[szerkesztés]

A Hadoop projektet Doug Cutting és Mike Cafarella[1] hozta létre 2005-ben. Cutting, aki akkor a Yahoo!-nál dolgozott, fiának játék elefántjáról nevezte el a projektet.[2] Eredeti céljuk a Nutch kereső elosztásának támogatása volt.

Architektúra

[szerkesztés]

A Hadoop fő részei:

  • Hadoop Common, amely a fájlrendszerrel és a operációs rendszerrel kapcsolatos absztrakciókat tartalmazza, valamint azokat a szkripteket és programokat, amelyek a Hadoop rendszer indításához szükségesek
  • MapReduce rendszer
  • Hadoop Distributed File System (Hadoop elosztott fájlrendszer)

Fájlrendszerek

[szerkesztés]

A HDFS (Hadoop Distributed File System - Hadoop Elosztott Fájlrendszer) egy elosztott, skálázható és hordozható fájlrendszer, amelyet a Hadoop rendszerhez írtak Java nyelven.

Más fájlrendszerek

[szerkesztés]

A Hadoop bármilyen elosztott fájlrendszerrel együtt tud működni, amely az adott operációs rendszeren csatlakoztatható. Ennek ugyanakkor megvan az ára: a hely információk elvesztése. A hálózati forgalom csökkentéséhez a Hadoopnak tudnia kell, melyik szerverek vannak az adathoz közel, ezt az információt tudják a Hadoop-specifikus adapterek megadni.

A támogatott fájlrendszerek között:

  • Amazon S3 fájlrendszer. Ez azoknak a fürtöknek lehet hasznos, amelyek az Amazon EC2 szolgáltatásán futnak. Ez a fájlrendszer nem veszi figyelembe a rack elhelyezést, mivel távoli eléréssel működik.
  • maprfs
  • CloudStore, amely figyelembe veszi a rack elhelyezést
  • FTP: minden adatot távolról hozzáférhető FTP szervereken tárol
  • HTTP/HTTPS: egy csak olvasható filerendszer, amely http szerverekről olvas

MapReduce implementáció

[szerkesztés]

Közismert felhasználók

[szerkesztés]

Yahoo!

[szerkesztés]

A Yahoo! 2008 február 19-én indította el a Yahoo! Search Webmap szolgáltatását, amely állításaik szerint 10 000 CPU-maggal a legnagyobb Hadoop-ot futtató linux klaszter a világon. A rendszer által generált adatokat minden Yahoo! keresési eredmény felhasználja.

A Yahoo! több Hadoop fürtöt működtet és a HDFS fájlrendszereit valamint a MapReduce feladatait nem osztja el több adatközponton.

Facebook

[szerkesztés]

2010-ben a Facebook állítása szerint övék volt a legnagyobb Hadoop fürt összesen 21 PB adatkapacitással.[3] 2011 július 7-én bejelentették, hogy az adatmennyiség 30 PB-ra nőtt, majd 2012 június 13-án 100 PB-ra. A cég 2012 november 8-i bejelentése szerint a Hadoop fürt tárolókapacitása naponta nagyjából fél petabyte-tal nő.

Más felhasználók

[szerkesztés]

Fordítás

[szerkesztés]
  • Ez a szócikk részben vagy egészben az Apache Hadoop című angol Wikipédia-szócikk fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel. Ez a jelzés csupán a megfogalmazás eredetét és a szerzői jogokat jelzi, nem szolgál a cikkben szereplő információk forrásmegjelöléseként.

Jegyzetek

[szerkesztés]