Workshop werken met XML-bestanden van OCR

Op donderdag 6 oktober 2022 geeft Mirjam Cuper van KB Lab een eendaagse workshop in het kader van de collegagroep ‘Digitalisering van periodieken’. Deelnemers leren in deze praktische workshop werken met XML-bestanden van OCR van historische teksten. 

De structuur van de XML-bestanden herbergt een schat aan informatie. Ze kunnen onder andere historische gegevens bevatten over uitgevers, drukkers en auteurs alsook metadata over de digitalisering. Hoe u informatie uit deze XML-bestanden kan halen vergt enige knowhow. 

Via deze workshop leert u met behulp van Jupyter Notebooks werken met de programmeertaal Python. Die maakt het mogelijk om snel en efficiënt informatie uit grote hoeveelheden XML-bestanden te halen. Daarnaast leert u ook hoe u deze gegevens kan omzetten naar een leesbaar en bruikbaar formaat. 

Zijn er specifieke XML-formaten die u aan bod wil zien komen? Hebt u specifieke informatie die u uit uw XML wilt halen? Vergeet dit dan zeker niet door te geven via dit inschrijvingsformulier! Inschrijven kan tot 29 september. 

De workshop is bedoeld voor medewerkers van cultureel-erfgoedorganisaties die interesse hebben om snel, efficiënt en in een bruikbaar formaat grote hoeveelheden informatie uit hun XML-bestanden van OCR te halen. 

Benodigdheden: eigen laptop met installatie van Anaconda. Anaconda installeert zowel Jupyter Notebooks en Python 3 zodat u voorbereid van start kan gaan.

Programma 

9.30 uur: Verwelkoming met koffie en thee

10.00 uur: Korte verkenning van Python en Jupyter Notebooks

10.30 uur: Theoretische achtergrond XML

  • Structurele opbouw XML-bestanden 
  • Verkenning methodes om XML bestanden te bevragen met Python

12.00 uur: Lunch

13.00 uur (incl. pauze): Aan de slag met Jupyter Notebooks

  • Verschillende verwerkingsstappen XML-bestanden
  • Verwerven, herstructureren en opslaan van informatie uit XML-bestanden 

Aanvullende informatie 

De collegagroep 'Digitalisering van periodieken' wordt georganiseerd door de Vlaamse Erfgoedbibliotheken, meemoo en FARO. In deze collegagroep komen professionals uit de sector samen om aan kennisuitwisseling te doen en ervaringen rond dit thema te delen. Medewerkers van organisaties die al actief bezig zijn met digitalisering ondersteunen er hun minder ervaren collega’s.

Type
Workshop
Trefwoorden
Digitale ontwikkeling
Sectoren
Cultureel-erfgoedsector

Praktische info

Begindatum
Locatie
meemoo, Ham 175, 9000 Gent
Prijs
Gratis
Deelnemers
Max. 12 deelnemers
Meer info

Inschrijven kan via deze link.

Organisatie: Vlaamse Erfgoedbibliotheken, meemoo en FARO

Elders op FARO

In 2023 richt Erfgoeddag de schijnwerpers op onze mededieren. Van vleermuis, werkpaard en schoothond tot en met de grote boze wolf, de
Welke contacten bestaan er tussen Vlaamse en Britse cultureel-erfgoedorganisaties? Welke impact heeft de Brexit op die contacten? En welke uitdagingen ...
Doe zoals Anneleen van Lommel van Erfgoed Noorderkempen en deel uw lesidee via Erfgoedwijs.be, een deelsite van KlasCement. Hoe? Op ...