Digitaliseren van archieven wordt geholpen door anti-spam software

Iedereen die ooit al een account op internet heeft aangemaakt, zal ongetwijfeld wel geconfronteerd zijn met een CAPTCHA. Een CAPTCHA (afkorting van Completely Automated Public Turingtest To tell Computers and Humans Apart) is een test waarbij je vervormde en/of onduidelijke opeenvolging van letters en/of cijfers moet intoetsen zodanig dat de gegevensverwerking kan bepalen of er al dan niet sprake is van een menselijke gebruiker. CAPTCHA’s worden vooral gebruikt om te voorkomen dat speciale computerprogramma’s of BOTS allerlei online diensten, zoals online opiniepeilingen en automatische inschrijving voor gratis e-mail accounts, gaan misbruiken om massaal SPAM te versturen. Er bestaat ook reCAPTCHA dat deze anti-spam technologie gebruikt als een hulp bij het digitaliseren van kranten en boeken.

Wereldwijd lopen verschillende grote projecten waarbij bibliotheken en archieven kranten en boeken digitaliseren. De pagina’s worden gescand en dan automatisch omgezet naar digitale bestanden door het gebruik van OCR (Optical Character Recognition) software. De omzetting van tekst gebeurt omdat digitale beelden van boeken moeilijk kunnen worden opgeslagen op kleine dragers, duur zijn om te downloaden en niet doorzoekbaar zijn. Het probleem is echter dat OCR allesbehalve perfect is.

Doordat sommige karakters onduidelijk zijn, de inkt langzaam verdwijnt of het papier is vergeeld, kan het zijn dat OCR tot 20% van het origineel niet kan ontcijferen.

reCAPTCHA helpt het digitaliseringproces door alle woorden die de OCR niet heeft kunnen lezen te plaatsen in een beeld en te gebruiken als een CAPTCHA die mensen kunnen ontcijferen. Dit is mogelijk omdat de meeste OCR programma’s signaleren wanneer ze een woord niet kunnen lezen. Maar hoe weet het systeem of het antwoord dat jij intoetst wel correct is? Simpel: elk woord dat de OCR niet kan lezen wordt geplaatst naast een woord waarvan men het antwoord al heeft. Het systeem gaat er vanuit dat wanneer je het gekende juist oplost, je ook een juiste oplossing hebt gevonden voor het nieuwe woord. Als extra controle plaatst het systeem de oplossing van het woord in een nieuw beeld dat als CAPTCHA aan meerdere personen wordt gegeven. Op die manier kan worden uitgemaakt of het originele antwoord correct was.

reCAPTCHA heeft verleden jaar geholpen om meer dan 440 miljoen woorden op te lossen en, onlangs, de digitalisering van het gehele archief van The New York Times sinds 1908.

 

 

Bart De Nil
archieven
ict
digitaliseren