Ez a cikk bepillantást enged öt népszerű nyílt forráskódú eszközbe, amelyek felhasználhatók az adatelemzési platform létrehozására.

A nagy adatok terabájtos vagy petabájtos és annál nagyobb sorrendű adatok, amelyek bányászatból, elemzésből és nagy adathalmazok prediktív modellezéséből állnak. Az információ és a technológiai fejlődés rohamos növekedése egyedülálló lehetőséget biztosított az egyének és a vállalkozások számára a világ minden tájáról, hogy nyereséget szerezzenek és új képességeket fejlesszenek ki, amelyek nagyszabású elemzés segítségével újradefiniálják a hagyományos üzleti modelleket.

Ez a cikk madártávlatból nyújt öt legnépszerűbb nyílt forráskódú adatplatformot. Itt van a listánk:

Apache Hadoop

Az Apache Hadoop egy nyílt forráskódú szoftverplatform, amely elosztott környezetben nagyon nagy adatkészleteket dolgoz fel a tárolás és a számítási teljesítmény tekintetében, és főleg olcsó árucikk-hardverekre épül.

Az Apache Hadoop-ot úgy tervezték, hogy könnyen kiszélesítsen néhány szerverről ezerre. Segít a helyileg tárolt adatok feldolgozásában egy párhuzamos feldolgozási beállításban. A Hadoop egyik előnye, hogy szoftveres szinten kezeli a hibákat. Az alábbi ábra szemlélteti a Hadoop-ökoszisztéma általános architektúráját és azt, hogy a különböző keretek hol vannak benne:

Az Apache Hadoop keretet biztosít a fájlrendszer réteghez, a fürtkezelő réteghez és a feldolgozási réteghez. Lehetőséget hagy arra, hogy más projektek és keretek jöjjenek és működjenek együtt a Hadoop ökoszisztéma mellett, és saját keretrendszert dolgozzanak ki a rendszerben elérhető bármely réteg számára.

Az Apache Hadoop négy fő modulból áll. Ezek a modulok a Hadoop Distributed File System (a fájlrendszeri réteg), a Hadoop MapReduce (amely a fürtkezeléssel és a feldolgozási réteggel egyaránt működik), egy másik erőforrás-tárgyaló (YARN, a fürtkezelő réteg) és a Hadoop Common.

Elasticsearch

Az Elasticsearch egy teljes szöveges kereső és elemző motor. Rendkívül skálázható és elosztott rendszer, amelyet kifejezetten a nagy adatrendszerekkel való hatékony és gyors munkavégzésre terveztek, ahol az egyik fő felhasználási esete a naplóelemzés. Képes fejlett és összetett keresések végrehajtására, és szinte valós idejű feldolgozásra a fejlett elemzés és operatív intelligencia érdekében.

Az Elasticsearch Java nyelven íródott, és Apache Lucene-re épül. 2010-ben jelent meg, és rugalmas népszerűségnek örvend a rugalmas adatszerkezet, a skálázható architektúra és a nagyon gyors válaszidő miatt. Az Elasticsearch egy JSON dokumentumon alapul, sémamentes felépítéssel, így az elfogadás egyszerű és problémamentes. Ez az egyik legmagasabb rangú vállalati szintű keresőmotor. Bármely programozási nyelvre írhatja az ügyfelét; Az Elasticsearch hivatalosan együttműködik a Java-val, .NET, PHP, Python, Perl és így tovább.

Az Elasticsearch főként egy REST API segítségével lép kölcsönhatásba. JSON-dokumentumok formájában kap adatokat az összes előírt paraméter mellett, és hasonló módon adja meg a válaszát.

MongoDB

A MongoDB egy NoSQL adatbázis, amely a dokumentumtár adatmodelljén alapul. A MongoDB-ben minden gyűjtemény vagy dokumentum. A MongoDB terminológiájának megértése érdekében a gyűjtemény egy alternatív szó a táblához, míg a dokumentum egy alternatív szó a sorokhoz.

A MongoDB egy nyílt forráskódú, dokumentum-orientált és platformokon átívelő adatbázis. Elsősorban C-ben írják++. Ez a vezető NoSQL adatbázis is, amely nagy teljesítményt, magas rendelkezésre állást és könnyű skálázhatóságot biztosít. A MongoDB JSON-szerű dokumentumokat használ sémával, és gazdag lekérdezési támogatást nyújt. Néhány elsődleges funkciója az indexelés, a replikáció, a terheléselosztás, az összesítés és a fájlok tárolása.

Cassandra

A Cassandra egy nyílt forráskódú Apache Project, amelyet NoSQL adatbázis-kezelésre terveztek. A Cassandra sorok táblákba vannak rendezve, és egy kulcs indexeli őket. Csak függelékben rögzített, naplóalapú tárolómotort használ. A Cassandra adatait több masterless csomóponton osztják szét, egyetlen meghibásodási pont nélkül. Ez egy felső szintű Apache projekt, amelynek fejlesztését jelenleg az Apache Software Foundation (ASF) felügyeli.

A Cassandra-t a nagy (webes) üzemeltetéssel kapcsolatos problémák megoldására tervezték. A Cassandra mestertelen architektúráját tekintve a kicsi (bár jelentős) hardverhibák ellenére képes folytatni a műveleteket. A Cassandra több csomóponton fut több adatközponton keresztül. Az adatokat megismétli ezekben az adatközpontokban, hogy elkerülje a meghibásodást vagy a leállást. Ez rendkívül hibatűrő rendszerré teszi.

A Cassandra saját programozási nyelvét használja az adatok eléréséhez a csomópontokon keresztül. Cassandra Query Language-nek vagy CQL-nek hívják. Hasonló az SQL-hez, amelyet főleg a Relációs adatbázisok használnak. A CQL saját cqlsh nevű alkalmazásának futtatásával használható. A Cassandra emellett számos integrációs interfészt kínál több programozási nyelv számára, hogy a Cassandra segítségével felépítsen egy alkalmazást. Integrációs API-ja támogatja a Java, C ++, Python és más programokat.

Apache HBase

A HBase egy másik Apache projekt, amelyet a NoSQL adattár kezelésére terveztek. Úgy tervezték, hogy kihasználja a Hadoop ökoszisztéma jellemzőit, beleértve a megbízhatóságot, a hibatűrést és így tovább. A HDFS-t fájlrendszerként használja tárolási célokra. Több olyan adatmodell létezik, amelyekkel a NoSQL működik, és az Apache HBase az oszloporientált adatmodellhez tartozik. A HBase eredetileg a Google Big Table-re épült, amely szintén a strukturálatlan adatok oszloporientált modelljéhez kapcsolódik.

A HBase mindent kulcs-érték pár formájában tárol. Fontos megjegyezni, hogy a HBase-ben egy kulcs és egy érték bájt formában van. Tehát ahhoz, hogy bármilyen információt tároljon a HBase-ben, az adatokat bájtokká kell konvertálnia. (Más szavakkal, az API nem fogad el mást, csak a bájt tömböt.) Vigyázzon a HBase-szel, mivel amikor adatokat tárol, emlékezzen az eredeti típusára. Az eredetileg karakterláncnak számító adatok visszatérnek bájtömbként, ha helytelenül hívják őket vissza. Ennek eredményeként hibát hoz létre az alkalmazásban, és összeomlik.

Remélem, tetszett ez a cikk. Ha építészmérnöki és adatigényes alkalmazásokat tervez, akkor fedezze fel Anuj Kumarét Adatintenzív alkalmazások építkezése. Ez könyv Ön átjárója intelligens adatintenzív rendszerek kiépítéséhez, az alapvető adatintenzív építészeti elvek, minták és technikák beépítésével közvetlenül az alkalmazás architektúrájába.

5 Open Source Big Data Platform

Apache Hadoop

Elasticsearch

MongoDB

Cassandra

Apache HBase