Speel mee met Monk: crowdsourcing voor automatische herkenning van handgeschreven archiefbronnen

Herkenning archiefbron

Automatisch zoeken in digitale tekstbestanden kan via de OCR-techniek al enige tijd. Kan de computer straks ook woorden zoeken in beeldbestanden van handgeschreven bronnen? Jazeker en eigenlijk vandaag al. Aan de Universiteit Groningen ontwikkelt prof. Lambert Schomaker met de financiële steun van NWO een zoeksysteem, Monk genaamd, dat precies daarvoor bedoeld is. In een Nederlands-Vlaamse samenwerking wordt Monk momenteel uitvoerig getest en getraind op archiefbronnen uit het Nationaal Archief in Den Haag, de Groninger Archieven, het Gelders Archief en het Stadsarchief Leuven. En u kan daarbij op een speelse manier waardevolle hulp bieden.

Monk is gebaseerd op patroonherkenning op pixelniveau. Wat het menselijke brein in een handgeschreven tekst als één woord (of een afkorting ervan) interpreteert, wordt daarbij door de computer benaderd als een vlak waarbinnen donkere pixels (inkt van de letters) en lichte pixels (de papieren drager) een bepaald patroon vormen. Monk leert om rekening te houden met een aantal variabelen om een pixelpatroon dat één keer geïdentificeerd werd via vergelijking automatisch te gaan zoeken in nieuw aangeboden digitaal beeldmateriaal. Monk onthoudt dus niet waar een bepaald woord in een handgeschreven bron voorkomt, maar maakt op basis van een vergelijkingsproces een hitlist van mogelijke treffers in het aangeboden digitale beeldmateriaal. Dat biedt het enorme voordeel dat Monk na training op materiaal uit bron A ook woorden kan herkennen in alle andere bronnen die in een voldoende gelijkend handschrift geschreven werden. Professor Schomakers onderzoeksresultaten tonen aan dat historische-periodevariatie daarbij meer impact heeft op de zoekresultaten dan individuele handschriftkenmerken. Als Monk dus voldoende getraind is, wordt de foutenmarge in de hitlist voor allerlei bronnen die in eenzelfde periode geschreven werden bijzonder klein.

In die trainingsfase is menselijke controle van de gevonden resultaten uiteraard essentieel. In afwachting tot de gebruikersgroep van de vier samenwerkende archieven een gemakkelijk te hanteren gebruikersinterface voor Monk heeft laten ontwikkelen, is er in Groningen alvast een tijdelijke website aangemaakt waar belangstellende vrijwilligers vanaf nu hun steentje kunnen bijdragen door losse woorden te labellen. Dat proces verloopt als volgt: u krijgt een handgeschreven (deel van een) woord te zien, met eventueel een zin erboven waarin de interpretatie die Monk automatisch aanmaakte, geel gemarkeerd is. Als u het eens bent met de door Monk gegenereerde suggestie, dan bevestigt u; in het andere geval verricht u zelf een beetje monnikenwerk door de correcte lectuur van het woord in te tikken. Soms wordt er ook gewoon gevraagd om het handgeschreven woord te transcriberen zonder Monk-suggestie. Het geheel wordt als een spelletje gepresenteerd. Wie meedoet krijgt als gebruikersnaam een dubbele monniksnaam en verdient per gecorrigeerd item een smiley. De website houdt uw persoonlijke score bij en om de competitie wat aan te moedigen is er ook een toplijst. Een waarschuwing over het verslavende effect is misschien niet overbodig.

Het woordmateriaal dat momenteel aangeboden wordt, is afkomstig uit scans van indices van het Kabinet der Koningin, van scheepsjournalen van een der Admiraliteitscolleges, en van aktes uit de Leuvense schepenbank voor het jaar 1421. Wie wil zien wat nu het concrete resultaat is van deze gedeelde inspanning om via crowdsourcing bij te dragen tot het automatisch zoeken in handgeschreven bronnen, kan de zoekmachine van Monk online raadplegen. Daar worden de vindplaatsen van een zelf te kiezen woord in de beschikbare bronnen gegenereerd en kan men ook meteen doorklikken naar de digitale beelden, waarop het woord dan gemarkeerd is. Een nieuw toegevoegd woordlabel beïnvloedt de zoekresultaten hier niet meteen. Er is heel veel rekenwerk voor nodig om de aanvullingen en correcties effectief te laten zijn. Dat rekenwerk gebeurt 's nachts. Toch zal binnen enkele dagen een zelfde zoekopdracht een beter resultaat opleveren. Ludus incipiat!

Rob Belemans