Shannon van Muijden over nieuwe functie Termennetwerk: ‘Dit is amazing’
Met de nieuwe functie van het Termennetwerk, een tool waarmee je kunt zoeken in gemeenschappelijke termenlijsten, gaat voor velen een wens in vervulling. Je kunt nu in bulk data in je collectieregistratiesysteem matchen met termen. Shannon van Muijden, datamanager bij het Zuiderzeemuseum en Termennetwerk-gebruiker van het eerste uur, probeerde de nieuwe functie uit.
‘Kijk,’ zegt Shannon van Muijden, ‘ik gebruik het Termennetwerk voor het stuk voor stuk zoeken van termen die ik nieuw invoer in ons collectieregistratiesysteem. Maar stel nu dat ik ook bestaande collectiegegevens wil linken via het Termennetwerk. En dan niet één term, maar een bulk van bijvoorbeeld een paar duizend? Dat kan nu met de nieuwe functie van het Termennetwerk. Spoileralert: dit is amazing!’
Termen matchen
Met de nieuwe functie kun je data in je collectieregistratiesysteem matchen met termen. Hierdoor wordt het mogelijk om woorden om te zetten naar een duurzame identifier of URI, bijvoorbeeld van ‘Rembrandt’ naar diens URI in de bron RKDartists, data.rkd.nl/artists/66219. Dit unieke identificatienummer is te vergelijken met het ISBN bij boeken. Dit proces heet reconciliation. Met de nieuwe functie kun je deze omzettingen geautomatiseerd doen, voor een hele dataset – en dat bespaart je heel veel tijd. Je kunt de zogeheten Reconciliation Service gebruiken in bijvoorbeeld OpenRefine, een programma om data in je collectieregistratie op te schonen, te standaardiseren en te verrijken.
De praktijk
Terug naar de ervaringen van Shannon. Voor een test exporteerde ze vanuit Adlib, het collectieregistratiesysteem van het Zuiderzeemuseum, een bestand met 13.000 auteursnamen. Via de zogenaamde ‘reconciliation-API’ van het Termennetwerk ging ze via OpenRefine de auteursnamen koppelen met kandidaattermen afkomstig uit de NTA, de Nederlandse Thesaurus van Auteursnamen die via het Termennetwerk beschikbaar is. ‘Maar liefst 11.000 auteursnamen hadden een match met de NTA!’ zegt Shannon enthousiast.
Waarschijnlijkheidsscore
‘Je krijgt bij elke kandidaatterm een waarschijnlijkheidsscore te zien: deze auteursnaam komt bijvoorbeeld voor 99% overeen met de NTA. De score geeft aan hoe waarschijnlijk het is dat in onze collectieregistratie hetzelfde “ding” (zoals een persoon, plaats, gebeurtenis, of onderwerp) gebruikt wordt als in een terminologiebron. Een check op dezelfde spelling is een manier om daarachter te komen. Met een score van 99% zal de match hoogstwaarschijnlijk kloppen. Je kunt sowieso alles wat een match van 99 of 100% heeft in een keer goedkeuren. Dat scheelt alweer veel werk.’
Nog wel wat handwerk…
‘Maar er zit ook nog wel wat handwerk aan vast,’ benadrukt Shannon. ‘Zo kan zijn dat er in de NTA meerdere auteurs met dezelfde naam zijn, bijvoorbeeld “J. de Vries”. Dan levert de Reconciliation Service ook meerdere matches op als je zoekt naar deze naam. Omdat de Reconciliation Service niet kan bepalen welke auteur ik bedoel, moet ik die controle zelf doen door de metadata zoals geboortedatum te bekijken die de Service teruggeeft bij elke auteur.’
… maar vooral tijdwinst
Uiteindelijk bleken er van de 11.000 matches 300 niet te kloppen, vertelt Shannon. ‘In een tijdsbestek van één tot anderhalf uur heb ik zomaar duizenden namen kunnen voorzien van een link, oftewel een URI, naar de NTA. Die lijst heb ik vervolgens weer in ons collectieregistratiesysteem Adlib geïmporteerd. Dus heb je bijvoorbeeld achterstanden in je collectieregistratiesysteem, dan is deze nieuwe functie van het Termennetwerk de manier om in een keer een bulk termen aan te pakken.’
Verder lezen
Lees hier meer over de Reconciliation Service in het Termennetwerk. Deze zomer volgt een uitgebreidere handleiding voor collectiebeheerders die de Reconciliation Service willen gebruiken via OpenRefine.
Beluister ook onze podcast met Shannon van Muijden
In de NDE-podcast ‘Paulus en De Nijs op reis’ vertelt Shannon over het vindbaar maken van digitaal erfgoed op internet, Zuiderzeecollectie.nl, softwareontwikkelaars en de klompen van Victor en Rolf.
Neem een kwartier de tijd en luister naar de podcast