TauRo: verso una biblioteca digitale cooperativa
Dal 19 gennaio 2007 è in rete TauRo, un progetto sviluppato dal Centro di ricerche Signum (ex CRIBeCu) della Scuola Normale Superiore di Pisa con il coordinamento di Paolo Ferragina: si tratta di un sistema innovativo per la gestione (creazione, pubblicazione, indicizzazione, consultazione e ricerca) di collezioni di documenti XML, che fornisce specifici strumenti per l’analisi testuale.
Con TauRo 1 è possibile creare e gestire collezioni di documenti, realizzando delle vere e proprie biblioteche digitali da pubblicare a vari livelli: in modalità esclusiva, in sola consultazione oppure in condivisione con altri utenti.
L’intento che ci siamo proposti è […] dare la possibilità di condividere documenti XML e creare la propria biblioteca digitale. Noi vorremmo fornire un modo semplice per ricercare documenti XML attraverso TauRo, il motore appositamente studiato e vorremmo realizzare la prima biblioteca digitale “fai da teâ€.
Rispetto a sistemi analoghi 2 TauRo offre la possibilità agli utenti registrati (l’iscrizione è libera e gratuita) di gestire direttamente i dati creando collezioni tematiche personali di testi.
Mediante l’interfaccia TauRo è dunque possibile:
- caricare nel sistema documenti XML e, classificandoli per categoria, creare la propria collezione digitale;
- gestire le collezioni in modalità esclusiva o in condivisione con gruppi di lavoro;
- ricercare nelle collezioni sia mediante semplici ricerche sul testo che attraverso ricerche avanzate sulla struttura.
Il nuovo motore di ricerca XML di Signum, TauRo-core, recupera le informazioni da un indice, se esiste, o dal documento stesso (non operando quindi su parole-chiave o meta-dati associati), presentando anche i rispettivi contesti; permette quindi di memorizzare i documenti in formato compresso, in maniera da diminuire le risorse occupate.
Il sistema funziona attualmente in versione sperimentale; l’utente non deve istallare alcun programma sul proprio PC: TauRo è un sito navigabile con un comune browser.
Note
1 Il nome TauRo nasce dall’acronimo di Text Retrieval componendo il nome delle corrispondenti lettere dell’alfabeto greco: Tau e Ro: il nucleo del sistema è infatti un motore di ricerca per documenti XML, TauRo-core. I primi esperimenti nell’ambito dell’analisi testuale informatizzata che si sono svolti al CRIBeCu di Pisa, avevano portato alla definizione di alcuni algoritmi per l’Information Retrieval confluiti nella realizzazione di un motore di ricerca, denominato TReSy, applicato con successo a varie collezioni di testi marcati con XML-TEI3, quali per esempio Le Vite vasariane e il più complesso Vocabolario della Crusca in edizione elettronica. Le innovazioni che TauRo-core presenta rispetto allo stato dell’arte riguardano le specifiche funzionalità di analisi lessicografica sulla parte testuale dei documenti, la gestione degli smart tag, e soprattutto la definizione di un linguaggio di interrogazione proprietario espresso in termini di sintassi XML. (Fonte: sito TauRo).
2 Si tenga almeno presente un altro sistema di libero utilizzo per l’interrogazione e l’analisi dei testi: TAPoR (Text Analysis Portal for Research), sviluppato dalla McMaster University, Hamilton Ontario, Canada, http://tapor.mcmaster.ca/home.html.
Questo articolo è consultabile anche nella mia rubrica eBook & dintorni della rivista «L’Istrice» di Luciano Simonelli Editore.