MultiMedia

Magazine di informazione sui  nuovi media, media digitali, multimedialità, audiovisivi,  information architecture     

Aut.Trib. di Roma n.124 del 25 marzo 2005
 
 
rivistarch.gif (8404 byte)

home
chi siamo
 
associatevi
 
 

 
 Gli Annali articoli e saggi libri slides tesi documentazione normativa formazione    
numeri precedenti  
MultiMedia Magazine 
PrimoPiano

 

MultiMedia 15 dicembre 2008  n. 45
 

Recaptcha, il sistema antispam per digitalizzare testi antichi.

di Elizabeth Tavella

Il servizio studiato ed offerto dalla Carnegie Mellon University, in Pennsylvania, offre la grande opportunità di trasferire su supporto digitale libri nati prima dell’era informatica.

 

Innanzitutto bisogna conoscere cosa sia un captcha, acronimo che in inglese sta per “completely automated public Turing test to tell computers and humans apart” (Test di Turing pubblico e completamente automatico per distinguere computer e umani). Nati per la prima volta nel 1997, per mano di Andrei Broder per Altavista, i captcha sono quei test automatici, utilizzati con il fine di garantire la sicurezza e impedire gli spam, che s’incontrano sul web, quando si accede ad alcuni siti protetti o si tenta di iscriversi ad un servizio o ancora di fare un login. All’utente è richiesto di decodificare e trascrivere in un apposito spazio delle parole di senso incompiuto in forma distorta o sfocata.

 

Alcuni studiosi dell’università di Pittsburgh hanno brillantemente individuato il modo di sfruttare questo sistema per digitalizzare libri antichi.

Per convertire in digitale vengono comunemente usati i programmi OCR ( riconoscimento ottico dei caratteri) i quali trasformano le parole ed i caratteri in formati riconoscibili dai pc.

Le pagine dei manoscritti vengono fotografate e scannerizzate e di conseguenza trasformate in testo.

Questa ultima fase, in precedenza, era eseguita manualmente e con molta pazienza da parte di operatori umani che prendevano il ruolo degli antichi scriba. Con l’introduzione degli OCR si è avuto modo di diminuire i costi e i tempi di trasferimento. Il limite di tali programmi è ovviamente l’imperfezione della macchina che molto spesso non è in grado di decifrare vocaboli,data la scarsa leggibilità di pagine ingiallite o usurate.

 

A questo punto subentra recaptcha, un sistema che utilizza i captcha per interpretare le parole non comprese dagli OCR. Considerando che ogni giorno 60 milioni di captcha sono risolti da esseri umani in tutto il mondo, si è pensato di sfruttare le 150.000 ore di lavoro uomo che altrimenti andrebbero inutilmente sprecate.

Recapthca invia all’utente due parole distorte di cui una è il termine non ancora compreso, l’altra è una parola già decodificata e conosciuta. Nel momento in cui l’utente capisce il vocabolo di cui già si conosce la decodificazione, si può essere certi del fatto che anche la nuova parola è stata interpretata giustamente.

Il sistema per avere un’ulteriore conferma invia ad altri utenti la medesima parola da leggere e nel caso in cui essa fosse scritta nella stessa maniera dell’utente originario, sarà assunta come corretta.

Resta in ogni modo un piccolo limite che si tratta di un lieve margine di errore umano, anche se la percentuale è irrisoria.

Al momento si sta lavorando nella digitalizzazione di libri dell’Internet Archive e di vecchie edizioni del New York Times.

 

È possibile collaborare a questo progetto, che già permette di tradurre 4 milioni di parole al giorno, scaricando gratuitamente i recaptcha dal link http://recaptcha.net/ inserendo l'applicazione sul proprio sito oppure sulla propria e-mail per essere protetti dagli spam.

 

Questo sistema, che prevede la traduzione di sole parole inglesi, risulterebbe efficace sicuramente anche in altre lingue. Pensando al solo nostro patrimonio italiano, si sarebbe in grado di accelerare i processi di conservazione digitale di documenti e di testi importanti della nostra cultura.

 

 
È possibile collaborare a questo progetto, che già permette di tradurre 4 milioni di parole al giorno, scaricando gratuitamente i recaptcha dal link http://recaptcha.net/ inserendo l'applicazione sul proprio sito oppure sulla propria e-mail per essere protetti dagli spam.
 
 
 
 
 
 
 
 
 

 

 

>>top

Valid HTML 4.01!ricerca con google