In conclusione, impariamo ad implementare una classe Main per la gestione dei job tramite Hadoop, scopriamo i formati disponibili per l’input e l’output, le regole per impostare il numero di map e reduce e i comandi per l’esecuzione del Job.

Una volta implementata una funzione di Map, analizziamo il ruolo del framework nel gestire i file di input e di output nelle operazioni di lettura e scrittura dei file di I/O, limitando al minimo la necessità di un intervento da parte dello sviluppatore.

Analizziamo un esempio riguardante la progettazione e l’implementazione di un job MapReduce il cui compito sarà quello di calcolare le occorrenze (cioè il numero di ripetizioni) dei termini presenti nel testo di un file.

Quali sono le componenti fondamentali che permettono ad Hadoop di lavorare su enormi quantità di dati (Big Data) sfruttando il modello di programmazione MapReduce? Scopriamo gli strumenti necessari per il monitoraggio dei cluster, la consultazione dei dati, la sincronizzazione degli oggetti e la gestione dei processi.

Analizziamo il funzionamento del framework MapReduce. Considerato il cuore del sistema di calcolo distribuito di Hadoop, esso permette di realizzare applicazioni in grado di elaborare grandi quantità di dati in parallelo basandosi sul concetto di functional programming.

Gli strumenti necessari per l’accesso e la gestione del file system distribuito HDFS di Hadoop. I comandi per interagire attraverso la shell e i parametri per la Web API; scopriamo nel dettaglio il ruolo svolto dai principali file XML per la configurazione del framework.

Scopriamo i componenti dell’architettura del framework Hadoop e in particolare il funzionamento del file system distribuito HDFS, in grado di gestire file di grandi dimensioni, ma che prevede anche un sistema di raggruppamento di piccoli file in archivi (.har) più grandi per garantire una gestione ottimale dei contenuti.