Hadoop, büyük verileri hızlı şekilde işleyip anlamlı hale getirebilmek için geliştirilmiş bir sistemdir.

Hadoop ne işe yarar?

Apache Yazılım Vakfı tarafından MapReduce sistemini temel alarak geliştirilen kütüphane, PB seviyesindeki verileri minimum sistem gereksinimi ve maksimum verim ile işlememizi sağlıyor.

Arama motorlarında, reklam şirketlerinde ve güvenlik sektöründe sıklıkla kullanılmaktadır. HDFS (Hadoop Distributed File System) sayesinde büyük verileri depolayabilirsiniz.

HDSF, küçük dosyalar ile çalıştığınızda size herhangi bir avantaj sağlamaz. Bu sebepten dolayı kullanacağınız sistemi iyi seçmeniz gerekiyor.

MapReduce nedir?

MapReduce, 1960’lı yıllarda kullanılan Map ve Reduce fonksiyonlarını baz alan bir sistemdir. Büyük verilerin bir merkezde toplanamaması sebebiyle oluşturulmuştur.

MapReduce 6 aşamadan oluşmaktadır:

Input – Veri girişinin yapıldığı aşamadır.

Splitting – Verilerin kolay işlenebilmesi için parçalara bölündüğü aşamadır.

Mapping – Veriler bu aşamada gerekli düğümlere(node) dağıtılır. Yedek sayısının belirlendiği aşamadır.

Shuffling – Node’lardaki sayma işlemi bu aşamada gerçekleşir. Örneğin, bir yazı içeriğinde, hangi kelimenin kaç kere tekrarlandığı bu aşamada belirlenir.

Reducing – Node’lardan gelen sonuçlar bu aşamada birleştirilir. Bu adımdan sonra veri raporlanabilir hale gelir.

Final Result – Bu aşama istediğimiz veriyi görmemizi sağlar.

Hadoop Nedir? Mapreduce nedir? </figure>

HDFS Nedir?

Büyük verileri saklama sorununa çözüm bulmak için geliştirilmiştir. PB seviyesindeki verileri saklayabilmektedir. HDFS içerisindeki veriler, kopyalandıktan sonra birden fazla kaynak tarafından aynı anda görüntülenebilir. Veriler küçük dosya blokları halinde saklanır. Blokların varsayılan boyutu 128 MB olarak belirlenmiştir. İhtiyaca göre değiştirilebilir.