​DEFINIZIONE E STORIA
SOFTWARE APPLICATIVI
TEXT RETRIEVAL
ANALIZZARE IL TESTO
I TAG
DAI TESTI AI CORPORA
CONCLUSIONI




DEFINIZIONE E STORIA

La linguistica computazionale ha origine dall'esigenza, negli anni '50, di avere computer che traducessero in modo veloce testi stranieri; data l'efficacia dei pc in calcoli aritmetici, fu pensato che fosse possibile ideare programmi che potessero avere altrettanta capacità e accuratezza nel tradurre i testi.
A tal scopo, la Linguistica computazionale è riuscita a conquistare una posizione centrale nel panorama scientifico-umanitario in poco più di cinquant'anni. In Italia, si sviluppa inizialmente a Pisa nell'Istituto di Linguistica computazionale del CNR(Consiglio Nazionale delle Ricerche) - fondato e diretto per lunghi anni da Antonio Zampolla - a cui negli ultimi anni si sono affiancati numerosi nuovi centri e gruppi di ricerca attivi su tutto il territorio nazionale.

Oggi la grande potenzialità della Linguistica computazionale si basa sulla sua capacità di trasformare i dati testuali in risorse di informazione linguistica. Tale processo rappresenta la migliore applicazione dell'informatica nel campo delle Scienze Umane e anche la prima in termini di tempo. Per analisi computazionale del testo si intende la memorizzazione dei dati in formato digitale preferibilmente organizzato in forma di database. Questa operazione, deve essere accompagnata da una scrupolosa operazione di codifica che garantisca la conservazione dell’informazione e l’assoluta trasportabilità dei dati.

La linguistica computazionale si concentra sullo sviluppo di formalismi descrittivi del funzionamento del linguaggio naturale, tali che si possano trasformare in programmi eseguibili dai computer. I problemi che il linguista computazionale affronta, come si può intuire dal nome stesso della disciplina, consistono nel trovare una mediazione fra un oggetto di studio in costante evoluzione (il linguaggio umano) e le capacità di comprensione della macchina, limitate a quanto può essere descritto tramite regole formali.

Con l'analisi computazionale del testo è più semplice ritrovare ed elaborare ogni tipo di informazione in esso contenuta.
Tale organizzazione del materiale permette notevoli operazioni di text retrieval, recupero dell’informazione ricercata.
Le informazioni possono essere ricercate:
  • per "stringhe di caratteri": una volta memorizzato il testo in un file ASCII è possibile effettuare una semplice ricerca per stringhe di caratteri. Il software impiegato individuerà nel testo unicamente la sequenza grafica richiesta.
  • per tags: i marcatori indispensabili all’indagine computazionale. Il testo codificato consente un’indagine più approfondita: è possibile ricercare non solo sequenze di significanti grafici ma anche effettuare indagini dal punto di vista semantico.
  • nella forma del data base che consente un'analisi dettagliata. Tra le principali forme di strutturazione dei dati, quella che consente di accostarsi agli obiettivi dell’analisi testuale in modo più chiaro è l’organizzazione nella forma della base di dati (database): tutte le informazioni necessarie possono essere memorizzate, oltre che rapidamente ritrovate ed elaborate, in un archivio elettronico: i DBMS (Data Base Management Systems), rappresentano un’importante risorsa per l’analisi computazionale.
.
Operazione iniziale di qualsiasi analisi computazionale è la scelta di un testo (che deve essere necessariamente in formato .txt) da utilizzare come base di partenza della codifica. Il trattamento elettronico andrà a creare un "testo ideale" staccato dal libro (supporto materiale in cui lo leggiamo) vero e proprio.Questo testo ideale avrà delle suddivisioni (capitoli, paragrafi e righe) che non necessariamente corrisponderanno a quelle del supporto materiale. Bisognerà esprimere chiaramente a quale testo si fa riferimento se a quello originale o se alla sua versione elettronica. Tali informazioni verranno dichiarate all’atto della codifica.

Il testo deve essere "normalizzato", cioè la grafica deve essere omogenea. Scopo della normalizzazione è inserire le parole di un testo in una tabella, affinchè possa essere esaminato dal programma. In esso troviamo le concordanze ovvero le parole ordinate alfabeticamente in un elenco che, in base al tipo di visualizzazione, si distinguono in Kwic (Key Word In Context), ordinate sulla stessa colonna o Kwoc (Key World Out Context) non allineate normalmente. A differenza degli indici, le parole così disposte sono accompagnate da un contesto che facilita l’interpretazione del significato all’occorrenza esaminato.
Gli indici sono concordanze prive di contesto e nell'elenco ogni vocabolo ha un proprio riferimento. Per individuare quante volte determinate parole ricorrono nel testo abbiamo la lista delle frequenze che, a differenza delle concordanze qui non c'è il riferimento alla collocazione della parola all'interno del testo. Un altro aspetto importante delll'analisi computazionale è la lemmatizzazione che permette di unire diverse unità in una sola che le accomuna per lo stesso lemma. Una volta ritrovati i dati necessari, si dovrà passare alla loro interpretazione, tramite l'applicazione di statistiche, che ci permetteranno di studiare lo stile di un testo. Potremmo ad esempio misurare la frequenza d'uso di determinate parole o la lunghezza delle frasi che compongono il testo, così da poter cogliere lo stile dell'opera e le caratteristiche peculiari del tipo di composizione dell'autore. Molte analisi testuali si effettuano tramite il campionamento, che permette di ridurre i tempi della ricerca, in quanto l'insieme dei dati da analizzare è troppo vasto rispetto alle risorse disponibili attualmente. Il vantaggio principale dell'analisi computazionale è la specificità delle informazioni sul testo che si ottengono rapidamente e con estrema precisione; questo tipo di lavoro non potrebbe essere effettuato manualmente su testi cartacei o con il solo aiuto della memoria e della lettura.



SOFTWARE APPLICATIVI

Al fine di realizzare un'efficiente analisi testuale, in base alle proprie esigenze, sono stati sviluppati numerosi software applicativi.
Ecco qui di seguito un elenco dei programmi allestiti per tale scopo:
È l'interfaccia grafica di una libreria che implementa una nota struttura dati identificata sotto il nome di suffix array. Il suffix array è noto da tempo in ambito scientifico e permette l'indicizzazione full-text di una collezione di testi memorizzati su disco.
Si tratta di un pacchetto di un programmi utile per l'analisi dei testi letterari; è utilizzato per ricerche di singole parole, ma anche per analisi più complesse.
E' un software di dominio pubblico, creato dall'Università di Tornonto nel 1984, e viene aggiornato periodicamente.
Permette elaborazioni su testi in formato Textual Data Base (TDB).
Concordance 3.0 è un programma che crea testi codificati in caratteri ASCII, e un file "concordance", all'interno del quale si possono effettuare ricerche di singole parole e visualizzare liste di frequenze.
Questo programma è in grado di effettuare analisi testuali velocemente; attraverso un elenco delle occorrenze di una parola presente nel testo si può risalire al contesto d'uso, e si possono eseguire statistiche sulla frequenza di una parola o di una stringa.
E' un insieme di strumenti per l'analisi linguistica. E' un programma particolarmente versatile e complesso e possiede funzioni interessanti come ka possibilità di dividere il testo analizzato in sezioni statistiche.
Wordsmith permette di effettuare la lemmatizzazione automatica, ma necessita di un elenco delle desinenze della lingua italiana, in quanto è un programma impostato per la lingua inglese.
Questo software può gestire corpora complessi, composti da milioni di parole. E' usato nella visualizzazione delle occorrenze , si serve del formato KWIC oltre a quello per frasi e segnala tag particolari all'interno del contensto.
  • MacConcordance
Noto anche come Conc, ha caratteristich specificamente linguistiche. Visualizza tre finestre, rispettivamente con testo, concordanze e indici, fra le quali si può saltare in modo immediato e intuitivo. E' possibile impostare numerosi parametri per soddisfare i più diversi tipi di analisi linguistica.

.
Altri software utili per l'analisi computazionale del testo, soprattutto nel settore delle scienze umane, sono:


computer.gif



TEXT RETRIEVAL

I tipi di analisi a cui un testo può essere sottoposto sono tanti. Tramite i programmi sovra elencati ( Concapp, Wordsmith, Monoconc Pro, MacConcordance etc ) è possibile effettuare operazioni di text retrieval, cioè il reperimento di dati in base alle nostre esigenze .

Normalizzazione
E' un tipo di organizzazione in cui tutte le parole del testo in analisi sono inserite in una tabella affinché vengano esaminate dal programma. Il documento preso in considerazione deve essere in formato ASCII, eliminando quindi tutti i caratteri non alfabetici e in maiuscolo. Le parole riportate nella tabella seguono un ordine alfabetico.

Concordanze
Le concordanze rappresentano, invece, l'elenco delle parole contenute in un testo rese, però, in ordine alfabetico. Ogni parola è seguita da un contesto che risulta utile per interpretare il significato di quella occorrenza. In un testo trovare le concordanze spesso non significa sottoporre ad esame tutte le parole di un testo. Le forme più frequenti sono in genere preposizioni, articoli e congiunzioni nonchè termini privi di peso informativo rispetto agli scopi della nostra indagine e per questo chiamate "parole vuote".
Programmi recenti per l'individuazione di concordanze ci permettono di scegliere tra due tipi di "output" (visualizzazione) delle informazioni:
  • Kwic (Key Word In Context): le forme vengono allineate tutte in una stessa colonna, il che facilita la leggibilità della concordanza
  • Kwoc (Key Word Out Context): le forme non sono allineate piuttosto la parola chiave è collocata prima esternamente e poi è riportata nel suo contesto;fungerà,quindi,da indice della sua riga di contesto.

Indice
L'indice è una concordanza senza contesto. La lista dei vocaboli (indice) contenuti dal corpus è resa generalmente in ordine ascendente (dalla A alla Z), meno frequente è l'ordine discendente. Indici e concordanze permettono di migliorare la lessicologia di dizionari tradizionali e spianano la strada a un nuovo tipo di dizionario informatico. Inoltre, questi ultimi indicano per ogni vocabolo le rispettive ricorrenze calate in contesti significativi e d'uso quotidiano.

Frequenze
L'elenco delle frequenze è la lista di tutte le parole che ricorrono nel testo preso in esame: insieme a tali parole è anche indicato il numero di volte in cui esse ricorrono e la percentuale rispetto al numero totale delle parole. Si tratta di precisi calcoli di frenquenza effettuati su ogni vocabolo. Il posto occupato da ciascuna parola in questa classifica si dice "rango" e per determinare la rarità o la frequenza di una parola bisogna stabilire una soglia di riferimento. Se osserviamo quali sono le parole del testo che occorrono più spesso, noteremo che ai primi ranghi ci sono le "parole grammaticali", grossomodo definibili come quelle parole che non sono associate ad un referente della realtà concreta o astratta (la parola possiede un significante, ma non un significato), ma servono ad esprimere una serie di relazioni interne al sistema della lingua (ne sono un esempio gli articoli e le preposizioni). Queste parole costituiscono il tessuto connettivo di ogni testo, indipendentemente dall'argomento. In fondo alla lista ci sono invece le "parole lessicalmente piene", la cui presenza è strettamente dipendente dall'argomento trattato. Va ricordato che le parole grammaticali sono una classe chiusa, cioè il loro numero complessivo in una specifica lingua è sempre costante nel tempo (non ne vengono aggiunte delle nuove come per esempio accade con le parole lessiclamente piene) altro fattore che ne determina la presenza massiccia in ogni testo.

Lemmatizzazione
E' l'applicazione per mezzo della quale possono essere ricercati i singoli "lemmi" nel testo ossia le forma base di eventuali forme flesse. La ricerca di questa forma base riguarda tutte le parti del discorso che sono soggette ad una declinazione o coniugazione. Spesso i programmi permettono anche di individuare le radici delle parole, cioè dei lemmi all'interno del corpus preso in analisi. Inserendo la radice il programma è in grado di individuare tutte le parole che iniziano con quella sequenza di caratteri oppure tutte le possibili varianti. E' un processo che elimina la variabilità formale per l'individuazione di lemmi "puri". Il vantaggio consiste nella faciltà di consulazione, ma lo svantaggio più grande consiste, però, nella perdita d' informazione (es: nel caso dell'indistinguibità degli omografi). La lemmatizzazione è una pratica veloce ed automatica però non del tutto affidabile per cui è meglio che avvenga sotto assistenza.

L'analisi dello stile
Di carattere statistica-qualitativa, l'analisi dello stile di un testo avviene misurando la lunghezza delle frasi, la frequenza di alcune parole e la presenza di costanti significative. Si entra così nel campo delle analisi stilometriche, cioè applicazione di tecniche statistiche allo studio dello stile di un testo; infatti, grazie all'analisi computazionale e stilistica di un testo, è possibile rintracciare lo stylistic fingerprint di un' opera, ovvero le sue peculiarità distintive e lo stile di un autore. In questo tipo di analisi viene data attenzione alla lunghezza media delle frasi, alla presenza di varianti grafiche ed ai vocaboli usati dall'autore con maggior frequenza. Sono questi i fattori che caratterizzano lo stile di un autore e con questa analisi vengono messi in luce e, in tal modo, quando si hanno dubbi sull'integrità di un'opera o sulla sua paternità, si ricorre all'analisi del suo stile. Attraverso gli strumenti informatici è dunque possibile definire lo stile di un'opera mediante l'analisi delle frequenze. Le informazioni che si possono ottenere sul corpus considerato, ad esempio le frequenze ordinate in ranghi, i loro valori massimi e minimi, la pesatura delle frequenze, sono forniti automaticamente da tutti i programmi per le elaborazioni stilistiche.

Inoltre con l’analisi dello stile possiamo dunque passare dall’analisi quantitativa a quella qualitativa, cioè all’interpretazione dei dati. Come già accennato è un modo per confrontare, ad esempio, autori diversi. Se due corpora, notoriamente attribuiti a due autori differenti, presentano un grande numero di identici, o porzioni di testo molto simili o ripetuti, ciò significherà sicuramente allusione o ripresa, citazione di stile o di contenuto dell’uno nei confronti dell’altro.

Il Campionamento
Molte ricerche testuali si basano su dati provenienti non dalla totalità del testo o del corpus, ma su campioni. Questa pratica si fonda su due principi:

  1. "l'universo", l'insieme dei dati da esaminare è troppo vasto per le attuali risorse disponibili per la ricerca, per cui, una determinata indagine su una materia presa in esame, dovrà per forza ricorrere al campionamento.
  2. lavorare su campioni permette di ridurre i tempi della ricerca, purchè questi conservino le caratteristiche peculiari degli insiemi da cui sono estratti e di cui saranno i campioni rappresentativi.

ANALIZZARE IL TESTO

Il problema principale, quando si vuole avviare l'analisi computazionale del testo, è stabilire dei criteri di identificazione per quella che è la sua unità di base: la parola.

La tokenizzazione, ovvero l'operazione mediante la quale si suddivide il testo in token, è relativamente semplice per lingue che -similmente all'italiano- adoperano gli spazi per delimitare le parole; molto complessa per lingue a sistema ortografico continuo (l'operazione richiede algoritmi estremamente complicati). Se ci limitiamo al primo caso, il token è definibile semplicemente come una qualunque sequenza di caratteri delimitata dagli spazi; tuttavia, tale definizione lascia spazio a numerose eccezioni. Pensiamo ad esempio ai segni di punteggiatura, che compaiono attaccati alle parole: l'apostrofo compare di norma in mezzo a due parole diverse che, in virtù della definizione, verrebbero erroneamente identificate come una parola unica.
L'ambiguità della punteggiatura costituisce un problema anche quando dobbiamo identificare l'unità linguistica superiore alla parola, ovvero la frase. Potremmo definire le frasi -semplificando- come sequenze di parole separate da punto e spazio e comincianti con una maiuscola; ma ci sono anche abbreviazioni come "Mr. Johnson" che, secondo questa euristica, verrebbero scisse in frasi distinte.
Se ci interessa sapere quanto un testo tokenizzato è ricco dal punto di vista lessicale, può esserci utile classificare i token in diverse tipologie, ovvero raggruppare i tokens con qualche specifica somiglianza in comune. Ad esempio potremmo raggrupparli in base alla loro forma grafica. Due token sono identici a prescindere dalla loro posizione nel testo. Si dovrebbe poi normalizzare il testo per escludere ogni possibile differenza del tipo maiuscolo/minuscolo e stampato/corsivo. Quando forme tipografiche diverse vengono condotte a una stessa forma standard, si dice che sono state ricondotte a una forma normalizzata.



Il British National Corpus (BNC) è una raccolta di 100 milioni di campioni di parola della lingua inglese sia scritta che parlata estrapolati da una vasta gamma di fonti, in modo da rappresentare una vasta sezione dell' inglese britannico del tardo 20 ° secolo.La parte scritta comprende estratti di giornale,riviste e periodici per tutte le età e interessi.La parte parlata è costituita,invece,da conversazioni informali(registrate da volontari selezionati da diverse fasci di età,classi sociali e regioni) e lingua parlata in diversi contesti,che vanno dalla formazione del governo a programmi alla radio e a registrazioni telefoniche.


I TAG


Un tag è una parola chiave o un termine associato a un "pezzo" di informazione ( una parte del discorso, un'immagine, una mappa geografica, un post, un video clip ...), che descrive l'oggetto rendendo possibile la classificazione e la ricerca di informazioni basata su parole chiave. I tag sono generalmente scelti in base a criteri informali e personalmente dagli autori/creatori dell'oggetto dell'indicizzazione. Per quanto riguarda i tag che vengo utilizzatti nel web,quest'ultimi possono anche essere usati in modo improprio, ovvero fornire indicazioni riguardo all'opinione che qualcuno ha di un'opera e quindi essere correlati al consumatore// del contenuto e non al contenuto in sé.
Alcuni tra i PART OF SPEECH TAGGING:

Immagine1.pngImmagine2.png

DAL TESTO AI CORPORA

Un corpus linguistico è una raccolta organicamente e sistematicamente organizzata di materiale sia orale che scritto che è usato dagli individui nelle situazioni comunicative. Questo enorme materiale che proviene dalla fonti più eterogenee è inserito, attraverso un continuo lavoro di aggiornamento, all'interno di database informatizzati per permettere all'utenza di attingere alle informazioni più significative sull'uso e sulla frequenza di determinati termini appartenenti ad una singola lingua. Può quindi rivelarsi interessantissimo l'analisi delle concordanze, delle co-occorrenze o delle collocazioni di un determinato termine o stringhe di termini all'interno di un macro testo specifico. Molti termini per la loro altissima frequenza diventano delle keywords che permettono, in ultima analisi, un insostituibile quanto fruttuoso studio sulle modificazioni e trasformazioni di una lingua all'interno di un contesto sociale definito.. L'evoluzione dei computer inoltre ha giocato un ruolo fondamentale, poiché il calcolatore ci consente di immagazzinare quantità sempre crescenti di testi e di esplorarli più rapidamente ed efficacemente.L'analisi dei corpora serve a trovare risposte del tipo "quante volte è utilizzata questo nome,aggettivo,verbo"?,a tale scopo infatti recentemente si sono accostati l'uso dei corpora con le traduzioni.Infatti i corpora si possono consultare in lingua madre,la lingua studiata o parallelamente.
I corpora possono essere classificati in varie tipologie, a seconda dei criteri usati per selezionare i testi che lo compongono. Esistono:
  • corpora specialistici, ideati per studiare uno specifico settore della lingua (quello della medicina, della burocrazia ecc.) e corpora generali, i cui testi vengono selezionati trasversalmente rispetto alle diverse varietà di una lingua, per poterla poi esplorare nel suo insieme;
  • corpora di lingua scritta, di lingua parlata o misti;
  • corpora monolingue o multilingue;
  • corpora sincronici, i cui testi appartengono tutti a uno stesso momento nel tempo, e "corpora diacronici", comprendenti testi appartenenti a periodi differenti;
  • corpora annotati e non.
I corpora annotati, oggi sempre più diffusi, sono corpora in cui vengono codificate informazioni sulla struttura linguistica del testo a vari livelli (sintattico, semantico ecc.).


ISTITUTO DI LINGUISTICA COMPUTAZIONALE “ANTONIO ZAMPOLLA”

L'Istituto di Linguistica Computazionale "Antonio Zampolli" del CNR (ILC-CNR) - operante nel settore della Linguistica Computazionale sin dal 1967, anno in cui fu formata una Divisione di Linguistica Computazionale presso il Centro Nazionale Universitario di Calcolo Elettronico (CNUCE) - è stato fondato come istituto indipendente del CNR nel 1978.
L'ILC-CNR è stato uno dei maggiori promotori della nozione di risorse linguistiche come componente centrale della "infrastruttura linguistica" (consapevole anche delle sue implicazioni culturali, economiche e politiche), ha coordinato le più importanti iniziative relative alle risorse linguistiche ed alla standardizzazione ed è stato spesso promotore di nuovi "paradigmi" nel settore.
L'ILC-CNR ha progettato e costruito parecchi tipi di corpora e lessici e le relative ontologie, ha sviluppato una catena completa di strumenti per un robusto trattamento della lingua italiana, per l'acquisizione di informazioni dai corpora e per la disambiguazione del senso delle parole e ha sviluppato tecnologie per parecchi domini di applicazione (risposte a domande, reperimento di informazioni, raccolta di testi, estrazione di terminologia monolingue e multilingue, acquisizione e strutturazione di ontologie, summarizzazione, filtro di documenti Web, conservazione dell'eredità culturale mediante il trattamento dell'immagine digitale e mediante tecniche per le biblioteche digitali ecc.).




CONCLUSIONI


L'elaborazione computazionale soffre spesso di una sindrome demiurgica, suscitando talvolta aspettative eccessive correlate ad altrettanto ingiustificate paure per una sua presunta velleità di espropriare o limitare la creatività del ricercatore umanistico. Il trattamento automatico della lingua non è stato immune da queste stesse tentazioni, ma le ha superate proponendo nuovi e articolati rapporti tra dati testuali e algoritmi per la loro elaborazione. Il testo e il computer sono indubbiamente molto più vicini di prima. Sta a noi riuscire a far maturare tutte le potenzialità offerte da questo incontro.
L'analisi computazionale non produce in realtà risultati differenti da quelli ottenibili con risultati tradizionali, ma permette di ottenere con maggiore rapidità, e su una massa di dati più ampia, risultati più attendibili.

Webliografia
http://books.google.it/books?id=D_u2dpUWC-IC&pg=PA37&lpg=PA37&dq=che+cos+%C3%A8+un+corpus%3F&source=bl&ots=391f-sHx7k&sig=OEGdcLq9dfgr0eoNTIg6-GhBtBI&hl=it&ei=WW8STPeHKJuWsQbloqCvBQ&sa=X&oi=book_result&ct=result&resnum=5&ved=0CC8Q6AEwBA#v=onepage&q=che%20cos%20%C3%A8%20un%20corpus%3F&f=false
www.griseldaonline.it/informatica/manuale_parte9.htm
www3.unibo.it/boll900/numeri/ 2003-ii/W-bol/Lenci/Lenci.html
http://it.wikipedia.org/wiki/Linguistica_computazionale#Analizzare_il_testo
http://it.wikipedia.org/wiki/Tag_(metadato)
//**http://www.ilc.cnr.it/viewpage.php/sez=organizzazione/id=10/vers=ita**//