Browsing Category

Büyük Veri

Apache Storm

Apache Storm gerçek zamanlı olarak akışlı verileri işlemek için bir sistemdir. Apache Storm, Enterprise Hadoop'a güvenilir gerçek zamanlı veri işleme özellikleri ekler. YARN'da Storm, gerçek zamanlı analitik, makine öğrenimi ve operasyonların sürekli izlenmesi gereken senaryolar için güçlüdür. Storm, Apache Slider üzerinden YARN ile bütünleşirken, YARN Storm'u yönetirken modern veri mimarisinin veri yönetimi, güvenlik ve operasyon bileşenleri için küme kaynaklarını da düşünür. Storm ne yapar Storm, yüksek hacimli verilerin…

HBase

HDFS'nin üstünde çalışan bir ilişkisel olmayan (NoSQL) veritabanıApache HBase, bu büyük veri kümelerine gerçek zamanlı okuma / yazma erişimi sağlayan açık kaynaklı bir NoSQL veritabanıdır. HBase, milyarlarca satır ve milyonlarca sütun içeren büyük veri setlerini işlemek için doğrusal olarak ölçeklendirir ve çok çeşitli yapı ve şemalar kullanan veri kaynaklarını kolayca birleştirir. HBase doğal olarak Hadoop ile entegredir ve YARN üzerinden diğer veri erişim motorlarının yanında kesintisiz çalışır. Hbase ne yapar? Apache…

Apache Ignite

Apache Ignite, bir kullanıcının uygulama katmanı ve veri katmanı arasında kesintisiz olarak yerleştirilebilen bir bellek içi bilgi işlem platformudur. Apache Ignite, mevcut disk tabanlı depolama katmanından RAM'e veri yükler ve performansı altı misli (1 milyon kat) kadar artırır. Apache Ignite, ACID işlemleri, yük devretme, gelişmiş yük dengeleme ve kapsamlı SQL desteği gibi dağıtılmış bellek içi veri yönetimini yöneten bir bellek içi veri ağını içerir. Ignite veri tablosu, dağıtılan, nesne tabanlı, ACID işlem içi, bellek…

Apache Kafka

Apache Kafka dağıtılan akışlı bir platformdur.Akış sağlayan bir platformun üç önemli özelliği; Kayıt akışı yayınlamaya ve abone olmaya izin verir. Bu bakımdan, mesaj kuyruğuna veya kurumsal mesajlaşma sistemine benzemektedir. Kayıt akışlarını hataya dayanıklı bir şekilde saklamaya izin verir. Kayıtların akışları gerçekleştikçe işleme konulmasını sağlar. İki geniş uygulama sınıfı için kullanılır: Sistemler veya uygulamalar arasında güvenilir bir şekilde veri toplayan gerçek zamanlı veri akış hatları oluşturma Verilerin…

MapReduce

MapReduce dağıtık mimari üzerinde çok büyük verilerin kolay bir şekilde analiz edilebilmesini sağlayan bir sistemdir. 2004 yılında Google tarafından duyurulan bu sistem aslen 1960’lı yıllarda geliştirilen fonksiyonel programlamadaki map ve reduce fonksiyonlarından esinlenmiştir. Veriler işlenirken bu iki fonksiyon kullanılır. Map aşamasında ana (master) düğüm (node) verileri alıp daha ufak parçalara ayırarak işçi (worker) düğümlere dağıtır. İşçi düğümler bu işleri tamamladıkça sonucunu ana düğüme geri gönderir. Reduce…

Vertica

Yapılandırılmış veriler dolandırıcılık vakalarından korunmak için denetleme yapan bankacılık sektörü ve abonelerinin kullanım alışkanlıkları ile diğer bilgilerini analiz etmesi gereken telekom şirketleri için büyük önem taşıyor. HP Vertica Analiz sistemi bu noktada bir işgününün veri analizini ertesi güne bırakmadan ve bazı durumlarda sadece birkaç saniye içinde tamamlayarak 7/24 Yaşayan Kurumlara büyük esneklik kazandırıyor. Kurumsal veri ambarlarında 4-5 terabayttan büyük verileri hızlı ve verimli bir şekilde analiz etmek…

Solr

Solr, Java ile geliştirilmiştir. Solr açık kaynak kodludur. Solr farklı sunucular (Jetty, Resin, JRun, Tomcat) üzerinde çalışır. Herhangi bir programlama dili kullanmadan, Solr sunucuyu kurulur. Solr ile verilerinizi sunucuda indekslersiniz. Bu veriler üzerinde arama yapabilme Solr ile sağlanır. Solr için veriler “Document” olarak adlandırılır. Solr’a veri eklemek demek yeni bir “Document” eklemek demektir. Solr her şeyi bir "döküman" olarak saklar. Dökümanları veritabanındaki satırlar (row) olarak düşünebiliriz. Örneğin…

Apache Pig

Apache Pig, Apache Hadoop üzerinde prosedurel bir data akışı yazmayı sağlayan bir veri işleme platformudur. Veri kullanıcılarına Hadoop’un güçlü, dağıtık ve esnek yapısına ileri seviye java kodları yazmadan daha üst bir katmandan erişim imkanı sağlayan bir yapıdır. Pig’in iki önemli bileşeninden Pig Latin dilini kullanarak kullanıcılar data akışı scriptleri yazabilirler ve Pig bunları Hadoop üzerinde MapReduce kodlarına çevirerek run eder. Pig’in en büyük getirisi Java bilmeyen kullanıcılara da Hadoop üzerinde üstseviye…

Apache ™ Tez

Apache ™ Tez, Apache Hadoop'ta YARN tarafından koordine edilen yüksek performanslı toplu ve etkileşimli veri işleme uygulamaları oluşturmak için genişletilebilir bir çerçevedir. Tez, MapReduce'un petabayt'lara ölçeklendirme yeteneğini koruyarak, hızını önemli ölçüde artırarak MapReduce paradigmasını geliştirir. Daha geniş Hadoop ekosistemi için geliştirilen artan sayıda üçüncü parti veri erişim uygulamaları gibi Apache Hive ve Apache Pig gibi önemli Hadoop ekosistem projeleri Apache Tez kullanıyor. TEZ NE YAPAR Apache Tez,…

Apache Spark

Apache Spark , büyük veri kümeleri üzerinde paralel olarak işlem yapmamızı sağlayan Scala ile geliştirilmiş açık kaynak kodlu kütüphanedir. Aklınıza ilk şu soru gelebilir . Hadoop varken Spark a neden ihtiyaç duyayım ? Apache Hadoop özetle bize iki bileşen sunar . HDFS ve MapReduce .  HDFS ile verileri birden fazla makinada saklayabilir ve yönetebiliriz .  MapReduce ile büyük verileri paralel olarak işleyebiliriz Genel olarak Spark ı , MapReduce alternatifi olarak kullanabiliriz . Biz Hadoop kullanarak verileri yine HDFS…
Copy Protected by Chetan's WP-Copyprotect.