Hive è framework di datawarehousing sviluppato da Apache e basato su Hadoop, per l’elaborazione distribuita di grandi quantità di dati (Big Data). Hive fornisce strumenti pensati per il riepilogo, l’interrogazione e l’eventuale analisi dei dati, sfruttando la sintassi SQL-like di HiveQL. In questa guida partiremo dall’installazione fino a coprire i principali aspetti di interesse per chi lavora con questo framework.

Impariamo come si effettuano le query utilizzando Hive, e come possiamo sfruttare un linguaggio di interrogazione molto simile ad SQL.

Impariamo a sfruttare gli strumenti messi a disposizione da Hive per la creazione e gestione delle tabelle tra i database.

Impariamo ad utilizzare Hive ed il relativo linguaggio HiveQL per gestire i database: dalla creazione alla modifica, fino all’eliminazione.

Esistono numerosi formati di file specificamente pensati per l’ambito dei Big Data: ecco quali sono, e quali caratteristiche li rendono più adatti ad Hive.

Imparare ad interagire ed utilizzare Hive sfruttando le due console principali supportate: Hive CLI (oggi deprecata) e Beeline.

Introduzione ad Apache Hive, framework di datawarehousing per l’elaborazione distribuita di grandi quantità di dati, basato su Hadoop.

Guida R
  • 13 lezioni
  • Facile

R è un linguaggio di programmazione che trova larga applicazione negli ambiti scientifici e statistici, in particolar modo quando è necessario analizzare grandi moli di dati. In questa guida completa e ricca di esempi pratici, vedremo tutte le caratteristiche di questo linguaggio, partendo dalla sintassi fino ad arrivare ad esplorare tutte le sue caratteristiche più avanzate.

Un esempio pratico per interagire, tramite uno script R, con un qualsiasi servizio REST basato sullo scambio di dati in JSON.