Pretraživanje

Odabrana platforma, cluster i neka mjerenja

|
Autor: Administrator

Most used Spark components

Odabrana platforma, cluster i neka mjerenja : Most used Spark components
  • Novo područje, veliki broj alata, frameworka i razvojnih okoliša, NoSQL baza
  • Prilikom odabira fokusirali smo se na podržan što veći broj funksionalnosti i alata unutar jednog okoliša, raširenost korištenja, paralelizam i skalabilnost, brzinu obrada, programski jezik (SQL, Python), predviđanja zastupljenosti i unapređenja, cijenu HW i alata ...
  • SPARK&Hadoop&MongoDB u potpunosti kvalitetno zadovoljavaju navedene zahtjeve
  • Spark je odlična višenamjenska BIG DATA platform
|
Autor: Administrator

Fastest growing areas from 2014 to 2015

Odabrana platforma, cluster i neka mjerenja : Fastest growing areas from 2014 to 2015
|
Autor: Administrator

Top 10 industries using Spark

Odabrana platforma, cluster i neka mjerenja : Top 10 industries using Spark
|
Autor: Administrator

Logistic regression

Odabrana platforma, cluster i neka mjerenja : Logistic regression

Speed

Run programs up to 100x faster than Hadoop MapReduce in memory, or 10x faster on disk.

Generality

Combine SQL, streaming, and complex analytics.

Ease of Use

Write applications quickly in Java, Scala, Python, R.

Runs Everywhere

Spark runs on Hadoop, Mesos, standalone, or in the cloud. It can access diverse data sources including HDFS, Cassandra, HBase, and S3.

|
Autor: Administrator

ININ razvojni/testni cluster

Odabrana platforma, cluster i neka mjerenja : ININ razvojni/testni cluster
|
Autor: Administrator

Brzina obrada i horizontalna skalabilnost

Primjer brzine obrade nestrukturiranih podataka na 1 i 6 čvorova Izvor podataka:Wikipedia. Količina nestrukturiranih podataka:5,6 milijardi riječi, 54 GB. Zadatak:Prebrojati i grupirati svaku riječ.

Odabrana platforma, cluster i neka mjerenja : Brzina obrada i horizontalna skalabilnost
|
Autor: Administrator

Spark SQL

•Obrada strukturiranih podataka
•Koncept iz relacijskih baza podataka
•Učitavanje i spremanje JSON, Parquet datoteka
•SQL naredbe
•Dizajniran za velike količine podataka
•UDF (User defined function) –Python, Scala, Java
•Pristup do Spark podataka putem JDBC-a

|
Autor: Administrator

Data Frames

Odabrana platforma, cluster i neka mjerenja : Data Frames

•distribuirana kolekcija podataka organizirana u tablice
•čuva se u memorij
•sadrži metapodatke o tipovima podataka
•operacije iz relacijskih baza podataka (filtriranje, sortiranje, agregacija, spajanje)
 

|
Autor: Administrator

Učitavanje datoteka iz HDFSa

Odabrana platforma, cluster i neka mjerenja : Učitavanje datoteka iz HDFSa
|
Autor: Administrator

Spark Streaming

Upotreba Spark API-ja u realtime obradama, jednostavna izrada skalabilnih aplikacija, aplikacije otporne na pogreške (fault-tolerant)

Odabrana platforma, cluster i neka mjerenja : Spark Streaming

Spark Streaming obrada podataka

•Zaprimanje podataka
•Podjela podataka u grupe
•Obrada pojedine grupe podataka
•Generiranje izlaznih rezultata

 

|
Autor: Administrator

Primjer Spark Streaming aplikacije – izvor podataka

TCP/IP aplikacija koja šalje u jednom koraku 10 slučajnih brojeva u intervalu 0-999

Odabrana platforma, cluster i neka mjerenja : Primjer Spark Streaming aplikacije – izvor podataka
|
Autor: Administrator

Primjer Spark Streaming aplikacije – Python&SQL obrada

Odabrana platforma, cluster i neka mjerenja : Primjer Spark Streaming aplikacije – Python&SQL obrada

• Zaprimanje podataka sa TCP/IP adrese i porta
• Podjela u segmente svakih 5 sekundi
• Spremanje svakog slučajnog broja kao jednog reda u tablici
• 1. Obrada  - ispisa 10 brojeva sa najviše ponavljanja
• 2. Obrada – izvršavanje agregatnih funkcija nad brojevima (min, max, count, avg, sum)

|
Autor: Administrator

Primjer Spark Streaming aplikacije – Rezultat obrade

Odabrana platforma, cluster i neka mjerenja : Primjer Spark Streaming aplikacije – Rezultat obrade