|
Il servizio studiato
ed offerto dalla Carnegie Mellon University, in Pennsylvania, offre la grande opportunità
di trasferire su supporto digitale libri nati prima dell’era
informatica.
Innanzitutto bisogna
conoscere cosa sia un captcha,
acronimo che in inglese sta per “completely automated public
Turing test to tell computers and humans apart” (Test di Turing
pubblico e completamente automatico per distinguere computer e
umani). Nati per la prima volta nel 1997, per mano di Andrei Broder
per Altavista, i captcha sono quei test automatici, utilizzati con
il fine di garantire la
sicurezza e impedire gli spam, che s’incontrano sul web,
quando si accede ad alcuni siti protetti o si tenta di iscriversi ad
un servizio o ancora di fare un login. All’utente è richiesto di
decodificare e trascrivere in un apposito spazio delle parole di
senso incompiuto in forma distorta o sfocata.
Alcuni studiosi
dell’università di Pittsburgh hanno brillantemente individuato il
modo di sfruttare questo sistema per digitalizzare
libri antichi.
Per convertire in
digitale vengono comunemente usati i programmi OCR
( riconoscimento ottico dei caratteri) i quali trasformano le
parole ed i caratteri in formati riconoscibili dai pc.
Le pagine dei
manoscritti vengono fotografate e scannerizzate e di conseguenza
trasformate in testo.
Questa ultima fase, in
precedenza, era eseguita manualmente e con molta pazienza da parte
di operatori umani che prendevano il ruolo degli antichi scriba. Con
l’introduzione degli OCR si è avuto modo di diminuire i costi e i
tempi di trasferimento. Il limite di tali programmi è ovviamente
l’imperfezione della macchina che molto spesso non è in grado di
decifrare vocaboli,data la scarsa leggibilità di pagine ingiallite
o usurate.
A questo punto
subentra recaptcha, un
sistema che utilizza i captcha per interpretare le parole non
comprese dagli OCR. Considerando che ogni
giorno 60 milioni di captcha sono risolti da esseri umani in tutto
il mondo, si
è pensato di sfruttare le 150.000
ore di lavoro uomo che altrimenti andrebbero inutilmente sprecate.
Recapthca invia
all’utente due parole distorte di cui una è il termine non ancora
compreso, l’altra è una parola già decodificata e conosciuta.
Nel momento in cui l’utente capisce il vocabolo di cui già si
conosce la decodificazione, si può essere certi del fatto che anche
la nuova parola è stata interpretata giustamente.
Il sistema per avere
un’ulteriore conferma invia ad altri utenti la medesima parola da
leggere e nel caso in cui essa fosse scritta nella stessa maniera
dell’utente originario, sarà assunta come corretta.
Resta in ogni modo un
piccolo limite che si tratta di un lieve margine di errore umano,
anche se la percentuale è irrisoria.
Al momento si sta
lavorando nella digitalizzazione di libri dell’Internet Archive e
di vecchie edizioni del New York Times.
È
possibile collaborare a questo progetto, che già permette di
tradurre 4 milioni di parole al giorno, scaricando gratuitamente i
recaptcha dal link http://recaptcha.net/
inserendo l'applicazione sul proprio sito oppure sulla propria
e-mail per essere protetti dagli spam.
Questo sistema, che
prevede la traduzione di sole parole inglesi, risulterebbe efficace
sicuramente anche in altre lingue. Pensando al solo nostro
patrimonio italiano, si sarebbe in grado di accelerare i processi di
conservazione digitale di documenti e di testi importanti della
nostra cultura.
|