Le window function consentono di applicare funzioni a gruppi di righe raccolti in base alla loro posizione. Impariamo ad usarle su Hive.

Hive è framework di datawarehousing sviluppato da Apache e basato su Hadoop, per l’elaborazione distribuita di grandi quantità di dati (Big Data). Hive fornisce strumenti pensati per il riepilogo, l’interrogazione e l’eventuale analisi dei dati, sfruttando la sintassi SQL-like di HiveQL. In questa guida partiremo dall’installazione fino a coprire i principali aspetti di interesse per chi lavora con questo framework.

Impariamo ad utilizzare le view e le subquery per interagire con i database anche mediante il framework di datawarehouse Hive.

Impariamo come possiamo realizzare le operazioni di JOIN utilizzando al meglio le funzionalità offerte dal framework Hive.

Per analizzare grandi moli di dati, è facile penalizzare le prestazioni. Per risolvere questo problema, Hive permette l’uso di partizioni e bucket.

Impariamo come si effettuano le query utilizzando Hive, e come possiamo sfruttare un linguaggio di interrogazione molto simile ad SQL.

Impariamo a sfruttare gli strumenti messi a disposizione da Hive per la creazione e gestione delle tabelle tra i database.