Pinakestext

From Pinakes3

Jump to: navigation, search

Contents

PinakesText [1]

PinakesText è un'applicazione che si integra in Pinakes pur potendo operare in modo autonomo. Il principio fondamentale sulla base del quale PinakesText è stato progettato è costituito dalla suddivisione strutturale dei dati testuali rappresentabili in un sistema digitale. Essi possono essere costituiti da:

  • immagini (le immagini del documento che contiene il testo),
  • testo (ovvero la trascrizione – diplomatica o interpretativa - del testo contenuto nelle immagini, come: il numero di pagina o di foglio di un manoscritto, il numero del paragrafo, del comma, della sezione, i titoli correnti nel caso di un dizionario o di un volume di enciclopedia, ecc.),
  • informazioni di carattere extratestuale e paratestuale (fra le quali: annotazioni, apparati e bibliografia).

È del tutto evidente che questa struttura, coerente con i sistemi di codifica e di marcatura adottati a livello internazionale per i dati di tipo testuale, anche se non limitati ai testi (si veda, per esempio, il linguaggio di markup della Text Encoding Initiative-TEI, ora disponibile anche nella versione xml[2]), colloca le diverse tipologie su piani differenti.

Per esempio, un numero che rappresenta una data all’interno di un’opera o una nota critica redatta da un filologo che l’ha studiata sono elementi appartenenti a livelli informativi diversi rispetto al testo propriamente detto.

PinakesText tiene conto di tali livelli, sempre che essi siano stati opportunamente marcati, in modo da sfruttarli a vantaggio di chi effettuerà delle operazioni di ricerca qualora sia selezionata l’opzione che rende attiva la funzione espressa da tali elementi distintivi. Essi assumono, infatti, un valore decisivo per alcuni programmi di elaborazione perché si garantisce la produzione di risultati più ricchi di quelli che si potrebbero ottenere se queste distinzioni non fossero state effettuate.

Un caso tipico, a tal proposito, riguarda il programma di indicizzazione: esso può produrre, per esempio, anche una lista separata con le parole che si leggono nei titoli correnti, oltre naturalmente a quella che elenca le forme linguistiche del testo vero e proprio, solo se la distinzione fra le due classi di dati (testo e titoli correnti) sia stata preventivamente eseguita mediante gli opportuni codici di marcatura. In caso negativo, avremmo a disposizione una lista unica onnicomprensiva senza possibilità di distinzione fra i due insiemi.

Anche se questi aspetti sono stati ampiamente analizzati dalla comunità degli studiosi che da molti anni si occupano di markup e di linguaggi di codifica, vale la pena considerare fino a quale livello di distinzione sia necessario spingersi affinché si mantenga un equilibrio sostanziale fra risorse impegnate e risultati attesi. In effetti, il problema della marcatura fra i livelli informativi che un testo scritto può contenere è strettamente connesso alla valutazione ed alle esigenze personali di chi esegue lo spoglio elettronico.

Con ciò intendiamo dire che non esiste un criterio universalmente valido in base al quale si debbano riconoscere e caratterizzare tutti i livelli teoricamente possibili di un testo: essi, come già anticipato sopra, dipendono dalla sensibilità, dagli scopi e dalla profondità di analisi di chi lo studia, lo prepara ed eventualmente lo immette in rete.

Chi, invece, progetta un sistema informatico di nuova generazione per l’elaborazione del testo deve rendere possibile la rappresentazione e l’utilizzazione di qualsiasi elemento di dettaglio (ovvero, di qualsiasi elemento testuale, extratestuale o paratestuale) affinché si producano i risultati desiderati.

Per chiarire meglio questo aspetto del problema, vediamo un esempio concreto che si riferisce allo spoglio elettronico del corpus dei Grammatici Latini Antichi[3], ma che assume un valore generale. Una caratteristica tipica di tale archivio è rappresentata dalla gran quantità di citazioni di opere di autori latini che i Grammatici commentano da un punto di vista degli usi linguistici e sulla base delle quali essi stabiliscono principi normativi. I fenomeni intertestuali sono, pertanto, assai interessanti e molto numerosi poiché vengono esplicitamente citati titoli e brani di opere di autori antichi da prendere spesso a modello. In questo caso, dunque, risulta indispensabile, per i ricercatori di storia delle lingua e della grammatica latina, riconoscere che i titoli, i testi e i nomi degli autori citati costituiscono elementi da classificare in una o più categorie diverse rispetto al testo, per esempio, di Donato, Prisciano, e degli altri trattatisti.


Funzioni

Un sistema come PinakesText deve, pertanto, consentire di distinguere questi fenomeni intertestuali ed utilizzarli nelle fasi di indicizzazione dei dati e di attivazione delle opzioni di ricerca. Una maschera di interrogazione, per esempio, è studiata per rendere possibile indicare:

  • se la stringa di caratteri da ricercare nell’archivio appartiene ad una parola intera o se, invece, ne costituisce parte iniziale, centrale o finale;
  • se la ricerca deve essere effettuata su tutto il testo o su uno dei livelli nei quali il testo è stato suddiviso (titolo delle opere, citazioni di opere in prosa, citazioni di opere in poesia);
  • se si vuole attribuire valore distintivo agli accenti/spiriti o al maiuscolo;
  • se una stringa di caratteri deve essere cercata in cooccorrenza o in alternativa ad una seconda stringa di caratteri, attivando specifici operatori booleani di inclusione o esclusione;
  • quale intervallo di parole considerare soglia massima nella ricerca di due stringhe di caratteri con operatori booleani.

Se è vero che non esiste un criterio universale per stabilire quali siano i livelli teoricamente presenti in un testo, poiché, come abbiamo detto, ciò dipende da competenze e valutazioni soggettive, esiste però l’obbligo, da parte di un sistema specializzato, di consentire la categorizzazione di questi livelli, l’adozione di strumenti di markup standardizzati e la possibilità di utilizzarli da parte di moduli di elaborazione affinché siano prodotti risultati più numerosi e siano consentite interrogazioni molto dettagliate.

PinakesText metterà a disposizione, in un programma di sviluppo pluriennale, una serie di moduli capaci di utilizzare i livelli del testo opportunamente rilevati e codificati secondo gli standard internazionali del settore. I vari componenti di elaborazione, inoltre, saranno inseriti in una struttura modulare perché possano agire sia interconnessi, sia separatamente gli uni dagli altri.

Un caso tipico è costituito dal modulo di lemmatizzazione per la lingua latina, ormai pronto per essere inserito all’interno dei servizi offerti da PinakesText. Un altro caso è costituito dal modulo che organizza le informazioni dell’apparato critico, oggi non ancora realizzato. La sua attivazione consentirà di associare, per ogni elemento (singole parole o interi periodi) del testo, le varianti trasmesse dalle fonti recensite.


Lavoro collaborativo in rete

Un problema particolare riguarda la possibilità di consentire agli utenti di PinakesText di realizzare progetti in forma collaborativa in modo che le competenze possano essere condivise al fine di raggiungere un risultato comune. In una prima fase lo sviluppo delle componenti tecnologiche sarà concentrato nel favorire la condivisione di annotazioni di immagini e testi in vista della pubblicazione di nuove edizioni critiche. Questo settore, tuttavia, potrebbe essere affiancato da altre attività realizzabili in forma cooperativa che non riguardino solo la componente editoriale, ma si spingano anche verso la coproduzione di contenuti digitali mediante l’uso di strumenti, computazionali o manuali, che analizzano e arricchiscono i dati da un punto di vista linguistico e filologico. Si pensi, per esempio, a analisi di tipo semantico o sintattico che si sovrappongono ai testi e che ne arricchiscono il potenziale di interoperabilità con altri dati messi a disposizione di altre comunità di studiosi.

Vediamo, con un esempio semplice, anche perché si tratta ancora di una ipotesi di lavoro non sufficientemente analizzata nei dettagli, come rappresentare questa esigenza e quali potrebbero essere le soluzioni da adottare. Una comunità che studia le opere di uno scienziato del ‘600, per esempio, Galileo Galilei, accede a informazioni “primarie” (i manoscritti, le opere a stampa, i testi dell’edizione nazionale, i disegni, ecc.) che sono disponibili in formato digitale e ogni ricercatore appartenente ad essa può associarvi informazioni “secondarie” (note critiche, studi, bibliografie, ecc.) di sua competenza. Il sistema informatico verifica in primo luogo se le classi alle quali le nuove informazioni appartengono siano state correttamente attribuite e, dopo aver controllato le autorizzazioni che gli utenti possiedono (possibilità di sola lettura, di lettura e scrittura, di sola scrittura), le condivide a tutta la comunità. E’ evidente che un’annotazione ad un passo che non sia stata classificata come tale, non sarà ad esso associata e non verrà inserita nella lista di tutte le altre annotazioni che gli altri membri della comunità abbiano eventualmente ad esso attribuite. Un responsabile scientifico, rappresentato da una sola persona o da un comitato di più membri, ha il compito di validare gli interventi e di consentire la loro pubblicazione in rete, pubblica o ristretta ai soli partecipanti.

In altre parole, grazie a PinakesText una stessa comunità di studiosi condivide, mediante la struttura logica con la quale le informazioni sono state organizzate, una mole di informazioni coerenti e distribuite anche su più server diversi. Ne consegue che una funzione di ricerca lanciata da un membro della comunità attiva un processo di navigazione nei dati messi a disposizione degli altri con un notevole vantaggio per tutti.

Gli editori critici, fino ad oggi e tranne rare eccezioni, hanno mostrato scarsa propensione al lavoro editoriale in comune anche perché le fasi di interpretazione del testo e di valutazione di errori e varianti sono strettamente legate alle conoscenze e alla sensibilità del singolo. Gli scambi di opinioni sono sempre esistiti soprattutto nei progetti più impegnativi per i quali sono stati costituiti gruppi di competenza e di lavoro. Nonostante ciò queste esperienze non equivalgono ad un vero lavoro collaborativo che, in effetti, solo una struttura ed una applicazione di rete consentono. Per quanto riguarda PT, una sperimentazione in tal senso è in fase di attuazione per la comunità internazionale degli studiosi di Galilei che se ne potranno giovare a partire dal prossimo anno, il 2009, in occasione delle manifestazioni celebrative per il quattrocentenario dell’invenzione del primo cannocchiale ad opera del grande scienziato pisano. Su questa base altri progetti saranno portati in una dimensione collaborativa come, per esempio, quello relativo alle opere di Gerolamo Cardano e, sperabilmente, quello su Antonio Vallisneri.

Come si è detto all’inizio, il sistema PinakesText predilige lavori editoriali relativi ad opere di storia del pensiero scientifico, ma verranno successivamente effettuate sperimentazioni anche su opere letterarie in poesia e prosa: in collaborazione con la Società Dantesca Italiana, per esempio, sono in corso prove di importazione in PinakesText di dati già disponibili in formato digitale affinché edizioni, immagini, commenti e indici siano consultabili in maniera organica, superando i limiti delle edizioni cartacee da un lato e le disomogeneità o inaffidabilità di quelle in rete dall’altro.


Strumento di filologia computazionale

Sulla base di esperienze maturate nello sviluppo di programmi sperimentali prodotti negli anni passati presso l’ILC-CNR nell’ambito di progetti di ricerca nazionali ed internazionali, alcuni componenti di editoria elettronica specialistica sul web sono in fase di progettazione e saranno integrati in PinakesText come moduli aggiuntivi, in una versione prototipale, alla fine del 2009.

Vediamo quali principi sono stati considerati fondamentali in questa prima fase di sviluppo:

  • il principio secondo il quale un testo da immettere nel sistema deve corrispondere a quello contenuto nell’immagine digitale della fonte che lo documenta e che può essere associata e mostrata assieme ad esso;
  • il principio, di origine Bedieriana, secondo il quale conviene prendere in considerazione, fra i testimoni che trasmettono un’opera, quello giudicato migliore per ragioni ecdotiche e sulla base del quale vengono verificate le corrispondenze o le differenze presenti in tutti gli altri;
  • il principio che, in una prima fase del lavoro di memorizzazione dei dati, vengono registrati in apparato anche gli errori veniali, ovvero quelle forme che certamente non contribuiranno a disegnare la storia della tradizione e la parentela dei manoscritti superstiti e che, quindi, sono inutili al fine della constitutio textus[4];
  • il principio, per quanto riguarda le opere a stampa antiche, che siano registrati in prima istanza anche i refusi tipografici, eliminabili, come per gli errori veniali dei copisti, in una fase seguente del processo editoriale;
  • il principio che ogni nota a margine, sia per i manoscritti che per i testi a stampa, venga codificata come informazione paratestuale in modo che le forme linguistiche in esse contenute siano indicizzate a parte, ma connesse alla frase (o alla singola parola) alla quale esse sono riferite o riferibili;
  • il principio che, ove possibile, sia realizzato un link automatico o semiautomatico fra le parole del testo trascritto e le corrispondenti parole dell’immagine digitale nelle quali compaiono. Questo strumento possiede un livello di utilità inversamente proporzionale alla chiarezza di lettura del testo sull’originale: esso diventa addirittura indispensabile quando il supporto materiale è fortemente danneggiato (come nel caso di minute di lettere prodotte con carta carbone e realizzate con sistemi dattilografici meccanici, di frammenti di papiri, ovvero in tutti i casi nei quali si sia verificata una parziale evanescenza degli inchiostri).

I prototipi fino ad oggi realizzati presso l’ILC, alcuni dei quali sono costituiti da applicazioni stand-alone (BAMBI[5], DIPHILOS), altri web based (per esempio FAD[6]) e le prove sperimentali eseguite su fonti manoscritte medievali, su opere a stampa antiche, su frammenti papiracei ed altri documenti testuali di varie epoche possono ora integrarsi in un sistema informatico per il web condividendo strategie, metodi e standard.

Il vantaggio di questa strategia di sviluppo consiste anche nel fatto che PinakesText diventa il componente per la gestione dei testi e per lo scholarly editing di Pinakes, ma può operare indipendentemente da esso. In entrambi i casi, avremmo a disposizione uno strumento che è contemporaneamente un leggio ed uno scrittoio digitale per consultare le fonti oggetto di studio e di edizione.

L’utente ha disposizione una lente per leggere più agevolmente i documenti e uno strumento di scrittura per trascrivere ed annotare il testo; egli può scegliere un menù di servizi disponibili per indicizzare, creare apparati, mettere in relazione documenti fra di loro, ed essere assistito nella preparazione e pubblicazione (sul web o in forma cartacea) dell’edizione critica.

Note

  1. Il testo è tratto dalla relazione tenuta da Andrea Bozzi al Convegno Le Reti in Rete, Milano, settembre 2008.
  2. http://www.tei-c.org/Guidelines/P5
  3. Per una descrizione dettagliata del progetto e dei risultati ottenuti, si veda A. Bozzi, Aspetti e problemi di spoglio elettronico di un archivio testuale: il caso dei Grammatici Latini antichi, in “Euphrosyne”, 31, 2003, pp. 533-550.
  4. Queste informazioni sono in ogni caso utili perché il programma di generazione degli indici, che mette in rapporto dati del testo e dati dell’apparato, consente di avere un quadro completo, anche durante le fasi di produzione dell’edizione e non solo a posteriori, della patina linguistica dei singoli testimoni. Gli errori, infatti, potrebbero anche costituire, ad una analisi più attenta resa possibile proprio dalla consultazione degli indici, una spia rilevante per determinare l’ambiente geografico e culturale nel quale un copista abbia operato. Le informazioni relative agli errori veniali possono essere eliminate a posteriori, dandone notizia o eliminandone del tutto la testimonianza anche dall’apparato definitivo.
  5. Il primo esperimento di filologia computazionale fu realizzato in occasione del progetto europeo BAMBI, per il quale si veda A. Bozzi. (ed.), Better Access to Manuscripts and Browsing of Images. Aims and results of an European Research Project in the field of Digital Libraries (BAMBI LIB-3114), Editrice CLUEB, Bologna, 1997. Informazioni ulteriori di carattere metodologico si possono leggere in A. Bozzi, New trends in philology: a computational application for textual criticism, in Zampolli A., Cignoni L. (eds.), “Linguistica Computazionale”, XVI-XVII Special Issue, Istituti Editoriali e Poligrafici Internazionali, Pisa-Roma, 2003, pp. 47-77. La descrizione di una applicazione per la filologia classica e, in particolare, per la papirologia greca, si trova in Digital documents and computational philology: the Digital Philology System (Diphilos). In Marco Veneziani (a cura di), Informatica e Scienze Umane. Mezzo Secolo di Studi e Ricerche, Firenze, Leo S. Olschki Editore, 2003, pp. 175-201.
  6. A. Bozzi e A. Raggioli, Tecnologia digitale negli Istituti Culturali: un case study, in M.M. Mattioda e F. Bruera (a cura di), Itinerari Multimediali Umanistici, Alessandria, Dell'Orso, 2003, pp. 23-42.


Altri documenti

Personal tools