Organizzare i metadati per il web semantico

Link copiato negli appunti

Se anche si ha un buono schema di descrizione del dominio, se anche si hanno buoni documenti, non si può fornire un sistema di navigazione semantica senza i metadati.

Nonostante questa affermazione sia una ovvietà ad oggi non esistono ancora sistemi solidi per l'archiviazione e l'interrogazione di metadati, ciononostante il gran parlare che si fa di web semantico, soprattutto in ambito accademico, e il buon numero di finanziamenti stanziati da istituzioni e privati in questo campo di innovazione.

La cosa non è casuale. In effetti per ora si hanno diverse idee dell'utilità delle tecnologie per la descrizione semantica dei dati. Nessuna pratica si è consolidata perchè nessuna è stata in grado di imporsi nell'uso degli utenti.

Un progetto come Mozilla ha utilizzato RDF sostanzialmente come una forma potenziata di XML. Alcune funzionalità di descrizione di schemi di dati che sembravano più facilmente descrivibili con RDF che con XML sono state affidate a questo nuovo linguaggio. Inoltre si è pensato di usare RDF per incrementare le potenzialità di archiviazione dei preferiti.

Nel campo dell'ingegneria del software c'è chi pensa di usare l'Costruiamo le ontologie per il Web Semantico per descrivere processi, quindi sostanzialmente per applicazioni che fanno un uso, per così dire, "interno" (interno al sistema) dei metadati.

Nella sua proposta originaria (quella dettata di Tim Berners-Lee) il Semantic Web è un progetto molto legato all'idea di agente intelligente. I dati della rete dovrebbero essere comprensibili oltre che agli umani alle applicazioni. In questa prospettiva si dà molta rilevanza alla deduzione automatica, perciò i metadati vengono pensati come dichiarazioni ricche di costrutti logici (inverso di, opposto a, incluso transitivamente).

L'ultimo modo di intendere i metadati che riesco a individuare riguarda l'indicizzazione di documenti. Secondo questa visione i metadati servono a indicizzare in modo reticolare una base di documenti. Reticolare nel senso che i termini usati per ordinare i documenti sono organizzati in una struttura. In questo ambito abbiamo due diversi approcci: indicizzare automaticamente (link a documento PDF) o indicizzare a mano (di cui il modello di maggior successo è il progetto Open Directory, progetto che per la verità ha dato scarsa rilevanza all'ontologia.

Cosa si può fare coi metadati

Dopo la situazione descritta sopra non posso di certo proporre il modo corretto per utilizzare i metadati. Nel mondo dei computer il vero modo "corretto" sarebbe quello in grado di imporsi spontaneamente, in quanto subito in grado di risolvere alcuni dei problemi più sentiti dagli utilizzatori dei mezzi informatici. Mancandomi questo, vorrei per ora limitarmi a sgombrare il campo da alcuni equivoci o da cattive interpretazioni.

I metadati non sono dati: i metadati non possono limitarsi a riportare in modo stringato i contenuti di un testo. Per questo funzionano già molto bene gli estrattori automatici di contenuti, sono imprecisi ma hanno una rapidità di computazione che consente di analizzare una base di documenti enormemente più ampia. I metadati dovrebbero esprimere relazioni di un documento con un certo cotesto, dovrebbero definire relazioni trasversali al documento. Questa osservazione evidenzia anche i limiti degli estrattori automatici di metadati. Se non li si usa adeguatamente non fanno molto di più (e qualche cosa in meno) delle query per parole chiave.
C'è metadato e metadato: i metadati non hanno tutti lo stesso valore, alcuni valgono più di altri. Un metadato descrive la struttura di una classe, di un tipo di dato. Ma può farlo in due modi molto diversi. Può semplicemente riempire il valore di un campo, di una proprietà della classe (una Persona che si chiama "Paolo"). In questo caso attribuisce solo un valore ad una struttura, ma non indica nulla di preciso. Se trovassi un altro metadato espresso per la persona di nome Paolo non saprei mai se è la stessa persona o sono due diverse.
Altrimenti un metadato può puntare ad una risorsa e utilizzare quella per definire il valore della proprietà di una classe (una persona che si chiama "http:/dominio.nomi.Paolo"). In questo caso il metadato compie un'operazione molto più precisa, in quanto va ad individuare qualche cosa di univoco, di cui potrò sapere con esattezza quali altri metadati sono stati espressi. La cosa è ancora più potente se si indica la localizzazione di risorse effettive, come pagine web, immagini, documenti.
Metadati vivi o morti: alcuni metadati sono legati a dati vivi altri a dati morti. È diverso definire un metadato per un documento di cui si possiede in locale una copia piuttosto che di un documento di cui si possiede una URL, una localizzazione nella rete. Nel primo caso siamo certi che potremo effettivamente disporre di quel documento, nel secondo caso rischiamo che la nostra URL non localizzi nulla: si sa i link invecchiano piuttosto facilmente. Nel primo caso però rischiamo di fornire informazioni vecchie, nel secondo possiamo dare dati aggiornati in tempo reale. Qui le scelte dipendono molto da cosa si intende fare e dai mezzi che si hanno a disposizione. Una via di mezzo può essere quella di registrare sia una URL che una copia di cache, alla Google, tanto per capirci.
Metadati che sono, metadati che parlano: i metadati si dividono in due categorie molto interessanti. Alcuni dicono io sono un X, altri io parlo di un X. Si può capire immediatamente che la cosa è molto diversa. Anche qui bisogna stare attenti, a seconda dei casi è importante basarsi sul costrutto giusto. In questo campo siamo abbastanza fortunati. Fin dalla sua nascita RDF consente di esprimere il meccanismo della reificazione. In pratica si tratta di potere esprimere delle asserzioni su delle asserzioni (sono un metadato x e dico che un metadato y è Z). Questo dà all'RDF particolare potenza. Tuttavia siccome si possono dire molte cose relativamente ad un metadato, sarebbe bello poter disporre di una ontologia standard per estendere la reificazione, cosa che attualmente non esiste.

In conclusione vorrei caldamente suggerire a chiunque debba scegliere (oppure costruirsi autonomamente) una applicazione per la gestione dei metadati di chiedersi cosa se ne farà. Delle funzionalità sopra descritte potrebbero servirne solo alcune oppure tutte. In ogni caso è bene assicurarsi di possedere strumenti capaci di farci raggiungere i nostri obbiettivi.

Tool per gestire i metadati

Ora vorremmo fornire i riferimenti di alcuni strumenti disponibili per l'archiviazione l'indicizzazione o l'interrogazione di metadati.

Il progetto più solido è di certo quello sviluppato dall'AIFB dell'università di Karlsruhe in Germania. Il progetto prevede anche una versione commercializzata dei prodotti che vengono proposti nel mercato dalla Ontoprise.

Il browser del W3C Amaya prevede la possibilità di annotare documenti visualizzati in rete indicizzandoli con delle asserzioni semantiche .

Per finire un progetto italiano. L'Università di Milano e dall'Isufi di Lecce possiedono un piccolo gruppo di ricerca che sviluppa prototipi per il semantic web (Milano) e li ri-ingegnerizza per applicazioni business (Lecce). Le informazioni sono disponibili sull'homepage del gruppo di lavoro.

Indice lezioni

Organizzare i metadati per il web semantico

Cosa si può fare coi metadati

Tool per gestire i metadati

Ti consigliamo anche

Crittografia e firma XML in Java - Apache Santuario

Ottimizzazione XML open source: EXIficient

L'ottimizzazione di documenti XML in Java

Open Graph Protocol, Facebook e il Web Semantico