In conclusione, impariamo ad implementare una classe Main per la gestione dei job tramite Hadoop, scopriamo i formati disponibili per l’input e l’output, le regole per impostare il numero di map e reduce e i comandi per l’esecuzione del Job.

Una volta implementata una funzione di Map, analizziamo il ruolo del framework nel gestire i file di input e di output nelle operazioni di lettura e scrittura dei file di I/O, limitando al minimo la necessità di un intervento da parte dello sviluppatore.

Analizziamo un esempio riguardante la progettazione e l’implementazione di un job MapReduce il cui compito sarà quello di calcolare le occorrenze (cioè il numero di ripetizioni) dei termini presenti nel testo di un file.

Quali sono le componenti fondamentali che permettono ad Hadoop di lavorare su enormi quantità di dati (Big Data) sfruttando il modello di programmazione MapReduce? Scopriamo gli strumenti necessari per il monitoraggio dei cluster, la consultazione dei dati, la sincronizzazione degli oggetti e la gestione dei processi.