Hadoop in NetApp združujeta svoje svetove


hadoop-netapp
Ena izmed ključnih prednosti Big Data platform, kot je Hadoop, je distribuiran datotečni sistem HDFS. Ta poskrbi, da so podatki zapisani na več različnih lokacijah. S tem omogoči vzporedno izvajanje operacij nad podatki. Žal se ta prednost v začetnih implementacijah pogosto izkaže kot "coklja" projekta, saj moramo podatke iz obstoječih podatkovnih skladišč najprej pretočiti v HDFS. NetApp je znan kot proizvajalec naprednih diskovnih sistemov in le vprašanje časa je bilo, kdaj bo rekel usodni "DA" in se poročil z Big Data platformami. V našem podjetju smo že pred več kot letom dni testirali delovanje HDFS preko FCP protokola na seriji FAS. Stvar se je sicer primerno obnesla na mali Hadoop gruči. A NetAppovi inženirji so stopili še korak dlje. Izdelali so vtičnik, ki omogoča branje datotek iz WAFL datotečnega sistema preko protokola NFS direktno iz Hadoopa. Tako se lahko izognemo marsikateremu zamudnemu kopiranju datotek v HDFS. Hadoop lahko preko vtičnika "pripne" ONTAP kapacitete kot sekundarni vir, lahko pa mu služijo tudi kot osnovni datotečni sistem brez potrebe po HDFS podatkovnem skladišču.   [service icon="moon-history" size="25" color="#8cc63f" title="Prednost vtičnika"] Kot implementator tehnologij NetApp in Hadoop smo se omenjenega vtičnika zelo razveselili. V prvi vrsti nam omogoča, da lahko pilotske Hadoop projekte izvedemo hitreje, saj podatkov ni potrebno kopirati v HDFS. Hkrati pa lahko uporabimo HDFS za velike količine nestukturiranih podatkov, strukturirane podatke pa vlečemo iz NetApp diskovnih polj. [/service]  
netapp_nfs_connector_for_hadoop