Impariamo come possiamo realizzare le operazioni di JOIN utilizzando al meglio le funzionalità offerte dal framework Hive.

Hive è framework di datawarehousing sviluppato da Apache e basato su Hadoop, per l’elaborazione distribuita di grandi quantità di dati (Big Data). Hive fornisce strumenti pensati per il riepilogo, l’interrogazione e l’eventuale analisi dei dati, sfruttando la sintassi SQL-like di HiveQL. In questa guida partiremo dall’installazione fino a coprire i principali aspetti di interesse per chi lavora con questo framework.

Per analizzare grandi moli di dati, è facile penalizzare le prestazioni. Per risolvere questo problema, Hive permette l’uso di partizioni e bucket.

Impariamo come si effettuano le query utilizzando Hive, e come possiamo sfruttare un linguaggio di interrogazione molto simile ad SQL.

Impariamo a sfruttare gli strumenti messi a disposizione da Hive per la creazione e gestione delle tabelle tra i database.

Impariamo ad utilizzare Hive ed il relativo linguaggio HiveQL per gestire i database: dalla creazione alla modifica, fino all’eliminazione.

Esistono numerosi formati di file specificamente pensati per l’ambito dei Big Data: ecco quali sono, e quali caratteristiche li rendono più adatti ad Hive.