Hive è framework di datawarehousing sviluppato da Apache e basato su Hadoop, per l’elaborazione distribuita di grandi quantità di dati (Big Data). Hive fornisce strumenti pensati per il riepilogo, l’interrogazione e l’eventuale analisi dei dati, sfruttando la sintassi SQL-like di HiveQL. In questa guida partiremo dall’installazione fino a coprire i principali aspetti di interesse per chi lavora con questo framework.

Esistono numerosi formati di file specificamente pensati per l’ambito dei Big Data: ecco quali sono, e quali caratteristiche li rendono più adatti ad Hive.

Imparare ad interagire ed utilizzare Hive sfruttando le due console principali supportate: Hive CLI (oggi deprecata) e Beeline.

Introduzione ad Apache Hive, framework di datawarehousing per l’elaborazione distribuita di grandi quantità di dati, basato su Hadoop.

Guida R
  • 13 lezioni
  • Facile

R è un linguaggio di programmazione che trova larga applicazione negli ambiti scientifici e statistici, in particolar modo quando è necessario analizzare grandi moli di dati. In questa guida completa e ricca di esempi pratici, vedremo tutte le caratteristiche di questo linguaggio, partendo dalla sintassi fino ad arrivare ad esplorare tutte le sue caratteristiche più avanzate.

Un esempio pratico per interagire, tramite uno script R, con un qualsiasi servizio REST basato sullo scambio di dati in JSON.

Introduzione al machine learning: che cos’è, quali sono le caratteristiche degli algoritmi che vi stanno alla base, e come ci aiuta R nell’utilizzarli.

Implementare due script di map e reduce utilizzando il linguaggio di programmazione statistico R, al fine di analizzare big data con Hadoop.