Studiemiddag Wiki-wetenschappers

Dit keer een gast-blog van Christiaan van Arkel, die tot 1 januari in dienst is van I&P om te helpen met allerlei verbeteringen rondom Islandora. Zijn afstudeerscriptie schreef hij over het gebruik van Linked Open Data door universiteitsbibliotheken. Hij bezocht op 26 september een studiemiddag van de Stichting Academisch Erfgoed rondom de impact van Wiki-projecten en schreef hierover onderstaand verslag. 

 

800px-Wikidata-logo-en.svgHet eerste deel van de middag had betrekking op het specifieke project Wiki Wetenschappers. Projectleider Linn Borghuis vertelde over dit project. SAE is dit project begonnen om informatie over hoogleraren te centraliseren. In een bredere context gaat dit bijvoorbeeld ook over hoogleraar archieven, maar in eerste instantie focust het project zich op biografische data van overleden hoogleraren. Deze informatie is momenteel beschikbaar in allerlei boeken en op verschillende websites, universiteits- en privé archieven, waaronder Leidse Hoogleraren vanaf 1575. Deze verspintering van informatie resulteerde in een zoektocht naar een centraal punt met alle informatie over hoogleraren. Hiervoor wilde ze geen nieuw portaal ontwikkelen. De oplossing bleek Wikidata.

De doelen van het project waren:

  • Het ontsluiten van biografische data over hoogleraren in een centrale database, Wikidata dus.
  • Een compleet historisch overzicht creëren van alle Nederlandse hoogleraren.
  • Kennis vergaren over het werken met Wikimedia projecten.
  • Kennis vergaren over privacy en de AVG in relatie tot bovenstaande doelen.

De resultaten die behaald zijn:

  • Een compleet historisch overzicht van de biografische gegevens van hoogleraren.
  • Alle instellingen (universiteiten) deden mee.
  • Kennis over privacy en de AVG verkregen over hoe om te gaan met gegevens over levende hoogleraren.

Aandachtspunten tijdens het proces:

  • Er komt veel maatwerk kijken bij het importeren van de data in Wikidata.
  • Data-normalisatie kost veel werk, denk daarbij aan standaardiseren van roepnamen en voorletters bijvoorbeeld.
  • Het is een kracht dat alle universiteiten meedoen, maar tegelijkertijd is het contact onderhouden tussen die verschillende organisaties ook erg intensief.
  • Tijdens het project kwamen ze tot de conclusie dat ze meer tijd hadden moeten nemen voor het hele project.

Het vervolg van het project:

  • Ook levende hoogleraren opnemen.
  • Verzamelde informatie terug laten vloeien naar de instellingen.
  • De vraag beantwoorden van hoe de database up-to-date te houden.

 

Wikimedia in Residence (WIR) Hanno Lans vertelde over zijn ervaringen tijdens dit project. Tijdens het project kwam de vraag naar voren wat nou eigenlijk geschikte data was? Grappig genoeg bleken boeken een hele belangrijke en rijke bron te zijn. Het boek is dan meteen ook een complete en gearchiveerde dataset. Daarom ook de aanmoediging voor universiteiten om vooral lustrumboeken en dergelijke te blijven uitgeven. Daarnaast bleken ook universiteitswebsites en platforms zoals Album academicus van de UvA bruikbare datasets te zijn. Uiteraard waren er ook problemen, één daarvan was de verdeling van academische functies; het verschil tussen een hoogleraar en een bijzonder hoogleraar, wat een typisch Nederlands begrip is. Ze hebben nog niet echt een oplossing gevonden voor dit probleem in de internationale context van Wikidata.

De diversiteit in datasets zorgde voor dat er veel tijd nodig was om die data op te schonen en bruikbaar te maken. Daarnaast was er ook een probleem in het opzetten van functies en faculteiten, met name door de historiciteit van de instellingen, waardoor faculteitsnamen en functies veranderen door de geschiedenis. Door bovenstaande problemen was er dus ook veel tijd nodig voor nabewerking en daardoor is er een verkeerde tijdsinschatting gemaakt.

Als derde sprak Marianne Loef over privacy en de AVG. Daarbij ging het over het vraagstuk in hoeverre de AVG van toepassing is op het project Wiki Wetenschappers. De AVG gaat om persoonsgegevens en over bijzondere persoonsgegevens. Bijzondere persoonsgegevens zijn bijvoorbeeld godsdienst, politieke overtuiging, gezondheid, ras, lidmaatschap vakbond, seksualiteit, genetische en biometrische data. Wat persoonsgegevens en bijzondere persoonsgegevens zijn is ook afhankelijk van de context. Als ik bijvoorbeeld een kenteken zie van een auto dan kan ik dat kenteken niet herleiden tot een persoon, daardoor is het op dat moment geen persoonsgegeven, maar voor de politie is het kenteken wel een persoonsgegeven omdat die toegang heeft tot een systeem waarin hij of zij het kenteken met een persoon kan koppelen.

Het verwerken van persoonsgegevens is ook belangrijk, niet alleen het verzamelen en beheren van persoonsgegevens is het verwerken maar ook het op een goede manier vernietigen van persoonsgegevens is het verwerken. Het is altijd belangrijk om mogelijke schade in overweging nemen als je persoonsgegevens gaat verwerken:

  • Exploitatie
  • Identiteitsfraude
  • Criminelen
  • Discriminatie
  • Uitsluiting
  • Framing
  • Manipulatie
  • Beperking keuzevrijheid
  • Verlies morele autonomie (bijv. China)
  • Stigmatisering, imagoschade

Denk daarbij vooral ook aan dat persoonsgegevens worden gebruikt voor handel. Cambridge Analytica als bekendste voorbeeld. Als je persoonsgegevens gaat verwerken is het belangrijk om passende beveiligingsmaatregelen te nemen. Eén daarvan is een PIA (Privacy Impact Assessment) maken.

In het kader van dit project is het belangrijk om te weten op welke grond je persoonsgegevens mag verwerken. De grond die van toepassing is op dit project is historie en wetenschap, daarnaast geldt de AVG niet voor overleden personen, tenzij een persoonsgegeven herleidbaar is naar een levend persoon (een erfelijke ziekte bijvoorbeeld). Hoogleraren zijn publiek domein: hun oratie en ambtsaanvaarding zijn openbaar. Hierbij heb je dus het verschil tussen openbare en ‘gewone’ personen. Mogen universiteiten persoonsgegevens van hoogleraren online zetten? Ja, dat mag, het hoogleraarschap is een openbaar ambt. Natuurlijk zijn er ook risico’s zoals profilering en een geboortedatum die misbruikt kan worden om bijvoorbeeld medische gegevens op te vragen. Om hier goed mee om te gaan is te zorgen voor een goede klachtenafhandeling en door een privacyverklaring online te zetten.

Capture

Olaf Janssen Wikimedia coördinator voor de KB sprak over de beelddonaties die de KB heeft gedaan op Wikimedia Commons en de vraag of dat een enkele reis is of dat je er als culturele instelling nog iets voor terug krijgt. Het doel van de Wikimedia coördinator is de wereld van de KB en de Wikiwereld samenbrengen. Helaas is er nog geen sprake van een cyclus bij de KB. De twee werelden bestaan nog erg los van elkaar. De Wikimedia projecten en de kernsystemen van de KB werken nog niet samen. Er bestaan heel veel meer mogelijkheden, maar die worden niet goed benut.

Waarom is dat zo moeilijk?

  • Technische barrières
  • Tekort aan middelen
  • Tekort aan kennis
  • Tekort aan vertrouwen
    • Er is een wantrouwen in de kwaliteit van Wikimedia projecten.

Het beleidsplan van de KB spreekt over het werken met woorden, daarbij wordt de focus dus gelegd op het geschreven woord. Er wordt dus bijna vergeten dat de KB hele mooie beeldcollecties heeft. Deze collecties bestaan onder andere uit:

  • Middeleeuwse handschriften
  • Atlassen
  • Wapenboeken
  • Grafiek
  • Boekbanden
  • Centsprenten

Deze beeldcollecties bestaan versnipperd door de KB. De KB heeft dan ook geen eigen beeldplatform. Het hebben van een eigen beeldplatform zorgt voor een beperkt bereik. Daarom maken ze gebruik van Wikimedia Commons. De KB heeft rechten vrije beelden geplaatst op Wikimedia Commons. De beelddonaties die gedaan worden moeten wel aan een aantal voorwaarden voldoen; het moeten afbeeldingen zijn die zich in het publieke domein bevinden, ze moeten relevant zijn voor Wikipedia, visueel aantrekkelijk zijn en een goede resolutie hebben.

Olaf constateerde 4 gevolgen van beelddonaties. De eerste is betere zichtbaarheid. Als voorbeeld gaf hij het boek Nederlandse Vogelen van Nozeman en Sepp. In 2014 is de gedigitaliseerde versie van dit boek als topstuk in hoge resolutie op KB.nl gezet. Deze versie is in 2016 34.710 keer bekeken in op KB.nl. In 2015 zijn alle 264 scans van het boek op Wikimedia Commons gezet. 66 van deze 264 zijn gebruikt in 213 Wikipedia artikelen in 52 talen. De scans van het boek zijn in 2016 op Wiki Commons 3.725.876 keer bekeken.

Het tweede gevolg van beelddonatie is het commercieel hergebruik van afbeeldingen in het publieke domein. Dat is toegestaan. Olaf noemde twee voorbeelden waarin het hergebruik een beetje was doorgeslagen. Ten eerste de stockphoto site Alamy die een beeld uit het Visboek van Coenen aanbood voor €17680,00. Het tweede voorbeeld was een dekbedden fabrikant die het beeld gebruikte als bedrukking voor een dekbed.

Het derde gevolg van beelddonatie is externe expertise uit onverwachte hoek. Het Fécamp psalter werd door de KB op Wikimedia Commons geplaatst. Een dag later verscheen er op Wikipedia een artikel over dit boek. Dit bleek gedaan door ene Jean-Pierre Remy. De KB heeft contact met deze man gezocht en gevraagd welke boeken hij graag zou willen beschrijven in een Wikipedia artikel. Door deze kleine samenwerking zijn een aantal items uit de KB collectie op een hele goede manier beschreven in Wikipedia.

urn-gvn-UBL01-P322N466-largeHet vierde gevolg van beelddonatie is de mogelijkheid tot nieuwe manieren van zoeken en vinden. Het voorbeeld hierbij is de Atlas De Wit. Afbeeldingen van die atlas waar Leiden op afgebeeld staat zijn op KB.nl alleen te vinden via de index. Door de afbeeldingen op Wikimedia Commons te plaatsen met de plaatsnamen in de titel is het mogelijk om te zoeken op plaatsnaam. Naast deze manier van zoeken biedt Wikimedia Commons sinds kort de mogelijkheid om gestructureerde data toe te voegen aan media items. Met de eigenschap ‘beeldt af’ (P180) is mogelijk om aan te geven wat er op de afbeeldingen te zien is. Zo wordt het bijvoorbeeld mogelijk om te zoeken naar alle steden aan de Zuiderzee of naar afbeeldingen te zoeken waar 1 hond en 2 pauwen op staan afgebeeld. Terwijl dit informatie is die niet specifiek in de metadata is vermeld. Dit biedt natuurlijk prachtige mogelijkheden om de collectie Topografische Prenten van de UBL voor een groter publiek beschikbaar te stellen. Een handige tool hiervoor is ISA (https://tools.wmflabs.org/isa/). Hierin kan je een campagne aanmaken en het publiek laten identificeren wat er op de afbeeldingen te zien is.

Christiaan

Link naar presentatie Olaf Janssen: https://www.slideshare.net/OlafJanssenNL/beelddonaties-enkele-reis-of-retour-studiemiddag-wiki-wetenschappers-sae-26-september-2019-utrecht

Projectpagina Wiki Wetenschappers: https://www.wikidata.org/wiki/Wikidata:Wiki-wetenschappers

Plaats een reactie