L’incidente che nelle scorse ore ha coinvolto il gruppo fondato da Mark Zuckerberg non ha causato soltanto l’impossibilità di accedere a Facebook e Instagram o di comunicare tramite WhatsApp e Messenger. Il malfunzionamento che ha coinvolto l’infrastruttura di rete di Menlo Park si sarebbe tradotto infatti anche nel mancato funzionamento dei badge di ingresso agli uffici e del sistema di messaggistica interno, nel sostanziale isolamento dei collaboratori in smart working e in enormi difficoltà di coordinamento tra i tecnici che sono dovuti intervenire per risolvere il problema.

Ora, immaginate di dover organizzare in poche ore il lavoro di migliaia di persone potendo ricorrere soltanto alle chiamate telefoniche e agli SMS. Certo vi è sempre la possibilità di utilizzare soluzioni di terze parti più avanzate con cui scambiarsi messaggi e creare viedeoconferenze d’emergenza, ma a parte il poco tempo a disposizione è necessario ricordare che le aziende di grandi dimensioni sono spesso strutturate in modo rigido, sostanzialmente burocratico, e spesso prevedono policy di sicurezza tali da limitare o escludere il ricorso agli strumenti offerti dalla concorrenza.

hello literally everyone — Twitter (@Twitter) October 4, 2021

Cos’è BGP (semplificando)

Ma cosa ha determinato un facebookdown questa volta inedito sia per durata che per diffusione a livello mondiale? Stando alle notizie attualmente disponibili le cause andrebbero ricercate in un problema di istradamento legato a BGP (Border Gateway Protocol), un protocollo di routing utilizzato per la connessione di router appartenenti a sistemi AS (Autonomous System). Grazie ad esso è possibile inviare o ricevere route verso e da organizzazioni esterne, per questo motivo si parla anche di BGP come di un protocollo di Exterior Gateway dove gli Interior Gateway consentono unicamente gli scambi interni ad un’organizzazione.

Per il suo funzionamento vengono definite delle tabelle in cui sono memorizzati i prefissi che rendono raggiungibili le reti indicandone i percorsi, viene quindi ripreso un modello simile a quello utilizzato per lo smistamento delle telefonate dove gli indirizzamenti sono gestiti utilizzando prefissi nazionali, prefissi di zona e numerazioni in modo che una singola chiamata giunga innanzitutto a destinazione e, in secondo luogo, non faccia squillare tutti i telefoni del mondo.

Come funzione BGP (semplificando all’estremo)

Un’infrastruttura che utilizza BGP deve essere raggiungibile dall’esterno e per questo motivo vengono utilizzati degli IP pubblici. In una configurazione priva del supporto a BGP ciascun collegamento verso la Rete viene associato ad una specifica classe di indirizzamento IP, dove per “specifica” s’intende che non può essere condivisa, succede quindi che se un determinato servizio, ad esempio una Web application, perde tale collegamento le altre reti non potranno raggiungerlo. In BGP tale specificità non è prevista e il funzionamento viene garantito rendendo gli IP raggiungibili da qualunque collegamento verso cui le route sono state propagate.

L’instradamento richiede però una mappatura, semplificando all’estremo si può presentare il caso in cui, tramite la connessione fornita dal provider A, si voglia visitare un sito Web che utilizza il provider B. A e B non sono in comunicazione diretta tra loro ma A può comunicare con C, che può comunicare con D che, a sua volta, può comunicare con B. La raggiungibilità del sito Web da A dipenderà da BGP.

Ora, quello che è successo al network di Facebook, comprese attività correlate come le esperienze immersive tramite Oculus, sembrerebbe essere dovuto ad una cancellazione della mappatura conseguente ad un aggiornamento incrementale. Si attendono ulteriori dettagli per comprendere meglio l’accaduto.