HTML.itHTML.it


 Editoriale di HTML.it

  I motori di ricerca alternativi
    Venerdì 12 ottobre 2000

Il mondo dei motori di ricerca è stato sempre alieno da sconvolgimenti repentini o da dirompenti squilibri; i grandi motori di ricerca facenti parte di grandi network e quelli storicamente più importanti hanno sempre avuto facile gioco a mantenere la propria posizione incontrastata: Altavista, HotBot, AOL Search, Excite, per parlare solo dei maggiori, per anni hanno sviluppato i propri indici godendo della fiducia quasi inerziale dei propri utenti. A mano a mano che il Web si espandeva, questi siti hanno allargato la propria offerta presentando funzioni extra e arricchendo le proprie offerte con cataloghi e soluzioni stravaganti, lasciando che quello che era un motore di ricerca venisse a coincidere ad un vero e proprio portale; tutto ciò ha portato molti dei siti di ricerca più affermati a dimenticare il loro primo obiettivo, quello, appunto, della ricerca, sviluppando sforzi e risorse verso canali diversi e presentando spesso inutili doppioni.
Il risultato ottenuto da questo mutamento di rotta è stato che i motori di ricerca hanno progressivamente abbassato il proprio livello di esplorazione e hanno permesso che la forbice tra le pagine indicizzate e le pagine esistenti si allargasse sempre più: Altavista, ad esempio, conteneva, nel dicembre 1997, circa 100 milioni di pagine mentre a giugno di quest'anno il suo patrimonio era costituito da 350 milioni di pagine; una delle statistiche più attendibili, presentata il 18 gennaio 2000 da Inktomi e dal NEC Research Institute (si veda l'annuncio sul sito di Inktomi), stimava la grandezza del Web pari a un miliardo di documenti: Altavista, dunque, sebbene sia uno dei motori di ricerca con più pagine indicizzate, non arriva a contenere nemmeno il 40% del "patrimonio" di Internet.
Il primo studio di una certa rilevanza che pose l'accento sul problema dell'irreperibilità dell'informazione fu pubblicato sulla rivista Nature da Steve Lawrence (Accessibility of information on the web da richiedere all'indirizzo http://www.neci.nec.com/~lawrence/); Lawrence, in alcune addenda alle pagine da lui pubblicate, spiegava quali potevano essere i rimedi a questa carenza: l'aumento di forza computazionale e lo sviluppo di nuove tecnologie di ricerca.

Alla luce di queste considerazioni è facile considerare quanto sia stato importante la risposta fornita da Google a questo tipo di problematiche; il motore di ricerca sviluppato da due studenti dell'Università di Stanford, la stessa che, per intenderci, ha cresciuto i fondatori di Yahoo, ha chiarito con la sua struttura e con il suo successo due concetti fondamentali: che un motore di ricerca non può estendersi come un portale e che un motore di ricerca deve basarsi su una continua ricerca e sperimentazione, equilibrando le necessità commerciali con quelle sperimentali. Google, con la sua interfaccia minimalista e semplice da utilizzare, utilizza la metà delle proprie risorse umane, molte delle quali estratte direttamente dal mondo universitario americano, alla ricerca e allo sviluppo di nuove idee per i motori di ricerca e il suo data center è composto da qualcosa come 5000 server Linux: Google, infine, ha recentemente dichiarato che il suo database è composto da 1,060,000,000 di pagine.
È stato giocoforza per gli altri motori adattarsi: Altavista, per evitare di perdere il passo, ha dovuto presentare, il 4 maggio scorso, la versione lite del proprio motore di ricerca chiamata Raging Search (traducibile con "ricerca scatenata"): l'interfaccia priva di pubblicità e sobria, la velocità di ricerca (ca. il 20% in meno di Altavista) e l'ampiezza dell'indice fa di questo motore di ricerca un ottimo, seppur ritardatario, avversario di Google.

Accanto a Google, il cui fine rimane quello di sviluppare un motore di ricerca assolutamente perfetto, vi sono altri progetti che percorrono altre strade per migliorare le ricerche su Internet.

LexiBot
Secondo la società BrightPlanet esiste in Internet una zona chiamata Deep Web che, invisibile ai motori di ricerca, nasconde circa 500 miliardi di documenti; questi documenti sono accessibili per mezzo di 100.000 siti ma esclusivamente attraverso delle query di database le quali, essendo formulate dinamicamente, non possono essere raggiunte dagli spider dei motori di ricerca, bloccati perfino da pagine con frame. Allo scopo di rendere accessibile questa miniera d'informazione, la società americana ha sviluppato un software chiamato LexiBot che, valutabile per 30 giorni e successivamente acquistabile per 90$, effettua ricerche su circa 600 database esistenti sulla rete e non catalogati altrimenti.

Pointera
Pointera è un ASP (Application Service Provider) che ha base a Palo Alto in California; nel giugno 2000 ha lanciato il sistema battezzato Pointera Sharing Engine il cui scopo è quello di tentare di rendere accessibili alle ricerche non solo i 14 milioni di server Web che si trovano sulla rete, ma anche i 500 milioni di PC collegati ad essa attraverso connessioni dial-up e simili. La tecnologia su cui si basa il sistema è la medesima che ha decretato il successo di software peer to peer come ad esempio Napster, cui il progetto Pointera fa esplicito riferimento; alla funzione di ricerca di file MP3, Pointera aggiunge tuttavia la possibilità di reperire file di immagini, file PDF, file prodotti dalla suite Office e file HTML. L'unico sito attivo segnalato da Pointera come facente parte del progetto è a tutt'oggi Spinfrenzy.com.

Ask Jeeves e Subjex
Altri due siti le cui tecnologie sono particolarmente interessanti e che probabilmente costituiranno il metodo d'interrogazione del futuro sono quelle basate sul linguaggio naturale; ne segnaliamo due: Ask Jeeves e Subjex. Il primo, utilizzato anche all'interno dei motori di ricerca Altavista e Arianna, è costruito per ricercare non una notizia da un'interrogazione ma una risposta da una domanda posta in linguaggio naturale (rigorosamente inglese); per utilizzare il motore, sviluppato da una redazione di 30 persone che aggiornano continuamente la banca dati delle domande, è dunque necessario scrivere semplicemente la domanda (tipo "Who is Bill Gates?") che sarà confrontata con quelle già possedute e, in base all'affinità con queste ultime, produrrà il risultato. Subjex è invece un sistema ancora più innovativo; il sito si presenta come un "amico" a cui rivolgere le domande: in base alle richieste poste dall'utente il programma che alimenta il progetto produrrà, insieme alla lista dei primi risultati ottenuti, delle altre domande così da instaurare un dialogo e rendere più precisa la ricerca. I risultati sono forniti, a mo' di meta-motore, da altri motori di ricerca.

Godado e GoTo.com
Accanto a questi sistemi che sviluppano tecnologia ve ne sono altri che puntano su nuove idee: Godado, di cui esiste anche una versione in italiano, ad esempio è l'ultimo nato di una categoria di motori di ricerca che, giustificando la necessità di mercato con la leggerezza e la velocità della ricerca, indicizzano le pagine esclusivamente dietro pagamento di una parcella che, variabile a seconda del tipo di contratto scelto, garantisce la visibilità del sito entro un determinato numero di posizioni: più persone cliccheranno il vostro sito più denaro dovrete sborsare al motore di ricerca. In questa categoria rientra anche GoTo.com il primo motore di ricerca di una certa importanza a scegliere la strada del pay for listing; recentemente anche Google ha scelto di aggiungere alle proprie opzioni anche questa opportunità: i siti paganti verranno mostrati, nella fase di ricerca, evidenziati in azzurrino con una descrizione scelta direttamente dal proprietario del sito.

Web Brain
Ultimo sito che ci preme segnalare è Web Brain; non un motore di ricerca ma una directory contenente oltre 1,8 milioni di URL catalogate in circa 300.000 categorie. WebBrain si appoggia, come i cataloghi di Lycos, HotBot e Netscape, al progetto Open Directory per cui lavorano circa 30.000 editor volontari. La peculiarità di Web Brain sta nel fatto che la visualizzazione delle stesse categorie che potremmo ritrovare in HotBot e Lycos viene effettuata attraverso una interfaccia grafica che permette, con un solo colpo d'occhio, di verificare i rapporti che intercorrono tra le categorie stesse in una efficace visualizzazione 3D; in più, attraverso questo nuovo metodo di visualizzazione, i percorsi effettuati all'interno delle categorie permettono di sperimentare percorsi nuovi e, diciamo così, imprevedibili.

di Francesco-Saverio Caccavella

Tutti gli editoriali

Torna a inizio pagina