Holland – Engeland. Uitslag: 158.000.000-3

Wie durft er nu nog te beweren dat het Nederlands wordt verdrongen door het Engels? De zoekvraag This is the best * on the internet levert 3 resultaten op, terwijl Dit is de beste * op het internet maar liefst 158.000.000 resultaten oplevert. Overigens is de uitslag bij andere zoekmachines aanmerkelijk minder schrijnend voor Engeland.

Waarschijnlijk heeft Google hier een probleem met stopwoorden.

ned

eng

 

 

 

 

 

Mediaevistiek, moderne technologie en de “Tremulous hand of Worcester”

9a503e8d-be4f-4314-ac40-ce5ee04028ff

Regionaal Historisch Centrum Limburg in Maastricht, gevestigd in de oude Minderbroederskerk

Op 2 en 3 februari vond in het Regionaal Historisch Centrum Limburg in Maastricht de internationale conferentie Parchment, Paper and Pixels. Medieval Writing and Modern Technology plaats. De bijeenkomst werd georganiseerd door SSNM (Schrift en Schriftdragers in de Nederlanden in de Middeleeuwen), het Huygens Instituut voor Nederlandse Geschiedenis, het RHCL en het Henri Pirenne Instituut voor Middeleeuwse Studies te Gent. Hoewel de titel doet vermoeden dat de presentaties alleen paleografie en oorkondeleer als onderwerp hadden, was de scope breder dan dat. Het doel van de conferentie was om de relatie tussen de Middeleeuwse en digitale wetenschappen in het algemeen te analyseren. Mediëvisten die op geen enkele manier gebruik maken van digitale hulpmiddelen zullen dun zijn gezaaid, alleen al de aanwezigheid van gedigitaliseerd handschriftelijk materiaal op het web heeft het onderzoek de laatste decennia veel toegankelijker gemaakt. Maar voor Digital Humanities onderzoek is wel wat meer nodig. Tijdens het symposium werd een aantal succesvolle projecten gepresenteerd.

Opgeleid als Mediaevist ben ik uiteraard breed geïnteresseerd in de ontwikkelingen in mijn vakgebied. Maar vanuit mijn functie bij de UBL was het ook boeiend om te zien van welk type tools onderzoekers op dit moment gebruik maken bij hun onderzoek, welke behoeften spelen, en bij welke onderdelen van het onderzoeksproces de bibliotheek een rol kan spelen.

De keynote op de eerste dag werd verzorgd door Peter Stokes. Hij is de bedenker van DigiPal, een open source tool voor het vergelijken van schrift. De software stelt onderzoekers in staat om te zoeken naar lettervormen, en de karakteristieke kenmerken eenvoudig met elkaar te vergelijken. Je kunt bijvoorbeeld letters over elkaar schuiven, en ze op een tijdlijn zetten. Hoewel Stokes DigiPal oorspronkelijk ontwikkelde voor Engels elfde-eeuws schrift, wordt de software inmiddels breder toegepast, met als resultaat SephardiPal (Hebreeuws schrift van het iberisch schiereiland), ScandiPal (het schrift van Scandavische fragmenten) en BayeuxPal (lettervormen op het tapijt van Bayeux).

In het verleden werd er nog wel eens getwijfeld aan de status van paleografie en codicologie: was het niet eigenlijk een hulpwetenschap voor historici? De DigiPal tool maakt het werk van de onderzoeker makkelijker, maar neemt het niet uit handen. DigiPal vertelt je niet of handschrift A en B door dezelfde kopiist zijn geschreven of niet, de interpretatie moet nog altijd van de onderzoeker zelf komen. Toch bestaat de angst dat tools als DigiPal er op den duur voor zorgen dat de rol van de paleograaf helemaal verdwijnt, en op basis van kwantitatieve analyses ook de conclusies kunnen worden getrokken. Dit was precies het onderwerp van de paper van Mats Dahllöf, die zich bezighoudt met automatische toeschrijving. In zijn abstract claimt hij een nauwkeurigheid van 97,1 % te bereiken, maar helaas moest hij door ziekte afzeggen. Natuurlijk wordt pas door de juiste vragen, methode en analyses van de onderzoeker software een echte onderzoekstool. Tegelijk vereist het andere kwaliteiten van de onderzoeker. Is het ook nodig dat zij zich al deze nieuwe technieken eigen maken? Tot op welke hoogte? En hoe komen ze aan deze kennis?

Miriam Edlich-Muth houdt zich bezig met de verspreiding van Floris ende Blancefloer. Van deze tekst zijn vele versies en vertalingen gemaakt, en het verhaal is dan ook van Griekenland tot en met IJsland bekend. Zoals veel onderzoekers begon zij met het vastleggen van kwantitatieve gegevens in een spreadsheet, maar al snel realiseerde ze zich dat deze methode niet voldeed aan haar wensen. Met behulp van een ontwikkelaar op haar afdeling maakte ze enkele zogenaamde heatmaps en dendrogrammen (voor het maken van een hiërarchische cluster analyse), tools die veel worden gebruikt door statistici. Uit diverse papers bleek dat onderzoekers op verschillende niveaus hulp kunnen gebruiken bij Digital Humanities onderzoek. In de eerste plaats bij het kiezen van de juiste tool. Hiltmann & Gniffke wilden bijvoorbeeld TEI gebruiken om de ontwikkeling van de Franse tekst “Comment les obseques se doivent faire”, over de uitvaart van edelen, in kaart te brengen. Als snel kwamen ze erachter dat de standaard hiervoor voldeed. TEI is een xml standaard bedoeld voor het maken van digitale edities en te plat voor het visualiseren van relaties tussen teksten. Ook wilden ze allerlei zaken in de standaard stoppen die er eigenlijk helemaal niet in thuis horen, en waar waarschijnlijk veel betere tools beschikbaar voor zijn. Precies hierin kan een Centre for Digital Scholarship een belangrijke rol spelen. Hier beschikt men over een overzicht van de beschikbare tools en technieken in de diverse vakgebieden en de toepassingen tot dat moment. Software die binnen het ene vakgebied is ontwikkeld om taken te automatiseren, kan in het andere vakgebied geschikt zijn om nieuwe onderzoeksvragen te beantwoorden. Ook kan een dergelijk loket een rol spelen bij het samenbrengen van onderzoekers uit verschillende disciplines. Het onderzoek van Stephen Smith en Deborah Thorpe liet zien waar een dergelijke samenwerking toe kan leiden. Smith houdt zich bezig met de ontwikkeling van medische hulpmiddelen voor patiënten met neurologische aandoeningen, en Thorpe is paleograaf. Samen onderzochten zij neurologische aandoeningen in de middeleeuwen aan de hand van (handgeschreven) teksten. Een bekend voorbeeld hiervan zijn de teksten van de 13de eeuwse Tremulous hand of Worcester, herkenbaar aan zijn bevende schrift. Opvallend is dat veel kopiisten, waaronder de Tremulous hand, ondanks hun conditie nog heel lang door konden schrijven. De onderzoekers wilden achterhalen aan welke aandoening zij leden. Was het mogelijk de ziekte van Parkinson, of toch Alzheimer?

schermafbeelding-2017-02-12-om-9-40-17-am

Ook het magische woord IIIF kwam een aantal keer voorbij. Verschillende onderzoekers lieten weten dat ze staan te springen om de mogelijkheden van het protocol te gaan gebruiken. Ze willen bijvoorbeeld gedigitaliseerde handschriften over een specifiek onderwerp op één plek samenbrengen om ze beter te kunnen vergelijken, of gedigitaliseerde handschriften transcriberen en annoteren, zoals wordt gedaan in French Renaissance Paleography.

Agata Dierick vertelde over Itinera Nova, een voorbeeld van een succesvol crowdsourcings-project geïnitieerd door het stadsarchief van Leuven. Doel is het digitaliseren en ontsluiten van de registers van de Leuvsense schepenbank (1362-1795). Aangezien het bijna een half miljoen folia betreft, heeft men hiervoor de hulp van vrijwilligers ingeroepen. Hiervoor werd een online platform ingericht met handleidingen, filmpjes en mogelijkheden voor kennisuitwisseling. Ook werd een interactieve online tutorial paleografie ontwikkeld.

De keynote op de tweede dag werd gegeven door Georg Vogeler van de universiteit van Graz. Hij werkt hier als Digital Humanities specialist voor het ‘Zentrum für Informationsmodellierung in den Geisteswissenschaften’. Hij vertelde met name over de uitdagingen bij het integreren van twee charter databases: Regesta imperii en Monasterium.net. Regesta imperii heeft een tijd geleden de ruwe data vrij beschikbaar gesteld onder CC-BY licentie. Hierdoor was het mogelijk geworden om de dataset te integreren in Monasterium.net, een database platform dat zelf ook weer verschillende typen bronnen samenbrengt: gedigitaliseerde gedrukte edities, beschrijvingen en scans van charters en aanvullende data die alleen via de website beschikbaar wordt gesteld. Integratie levert niet alleen een betere vindbaarheid op, maar ook een verbetering van de functionaliteiten. Wat is hiervoor nodig?

  • Meer datasets zouden open access beschikbaar moeten worden gesteld;
  • Via een api met data in formats die uitwisseling bevorderen;
  • Als linked open data met semantic web technologies;
  • En door het gebruik van gedeelde conceptuele modellen

Allemaal zaken waar in Nederland dankzij de activiteiten van het NDE gelukkig al hard aan wordt gewerkt.

In zijn slotbeschouwing stelde Georg Vogeler vast dat onderzoek aan de ene kant steeds vaker interdisciplinair is, maar dat dit aan de andere kant ook weer eigen specialisaties aan het worden zijn. “ Hij vraagt zich dan ook af: are we narrowing down again?” Samenwerking en kennisdeling is noodzakelijk voor innovatie, dus de vraag is hoe dit kan worden voorkomen. Ook hierin kan volgens mij de bibliotheek (en met name een CDS) een rol spelen, doordat de kennis over tools en methodes hier niet alleen wordt verzameld en gedocumenteerd, maar ook weer wordt gedeeld. Dat kan door lezingen, conferenties en workshops, maar ook met een-op-een contact met onderzoekers. De bibliotheek kan op deze manier ook fungeren als motor voor innovatie.

Saskia

p.s. De tremulous hand bleek trouwens aan een essentiële tremor te lijden, d.w.z. zonder aanwijsbare oorzaak. Dat op sommige pagina’s het schrift een stuk minder bibberig is, komt volgens de onderzoekers doordat de kopiist ofwel heeft uitgerust, ofwel licht beschonken was. Een borrel was in de middeleeuwen dus niet alleen een beloning na het schrijven

Ga eens vreemd!

(Vagin en peni deel 2)

untitledGoogle is als een vaste partner: je bent er aan gewend, er treedt geleidelijk aan een zekere sleur op en je kent na verloop van tijd alle gebreken van de ander, maar toch blijf je trouw, al was het maar uit gewoonte. Daarom kan ik iedereen adviseren om af en toe eens vreemd te gaan. Met een zoekmachine uiteraard.

Met Microsoft’s Bing (www.bing.com) bijvoorbeeld, dat ooit de grote tegenhanger van Google moest worden. Dat is nooit helemaal gelukt, maar volgens de gebruiksstatistieken is het wel een goede tweede. Vagin en peni (zie mijn vorige blog) vult hij keurig aan. De autocompletefunctie is over de hele linie trouwens wat beter dan die van Google. Wanneer je op een bepaald bestandstype wil zoeken, ben je bij Bing aan het goede adres: als je filetype:docx opgeeft, vindt hij zowel de nieuwe *.docx als de oudere *.doc bestanden. Hetzelfde geldt voor Powerpoint- en Excelfiles.

Als je absoluut niet wilt dat een zoekmachine je gegevens bijhoudt zijn er talloze alternatieven voorhanden. Duckduckgo ( duckduckgo.com)  is bijvoorbeeld een heel aardige zoekmachine die je niet volgt. Een handige optie van Duckduckgo is dat je heel makkelijk van regio kunt veranderen. Als ik iets wil lezen over mijn neef,  die schrijver is, schakel ik over naar zijn geboorteland Nieuw-Zeeland en vind hem al in de eerste zoekresultaten, terwijl ik daarvoor bij andere zoekopties flink moet doorscrollen. Maar het handigste van Duckduckgo zijn de bangs. Via deze optie kun je je zoekactie beperken tot één bepaalde krant, database, catalogus, site enz.  Er zijn duizenden van die bangs en het aantal groeit.

Het Engelse Oscobo (https://oscobo.co.uk/) houdt evenmin persoons- of zoekgegevens bij. Je ziet wel advertenties, maar je krijgt niet tot in den treuren advertenties van boormachines te zien omdat je daar ooit een keer op hebt gezocht.

StartPage van IxQuick  (https://www.startpage.com/) geeft je zoekopdracht door aan Google zonder dat jouw gegevens meegaan, ook je ip-adres niet. Hiermee kun je dus via een omweggetje gebruik maken van Google, zonder dat Google gebruik maakt van jou. Op die manier kun je ook anoniem de websites bezoeken die je via de zoekmachine vindt.

Ook bij het Franse Qwant (https://www.qwant.com/) staat privacy hoog in het vaandel. Het leuke van deze zoekmachine is de vormgeving.  De zoekresultaten worden getoond in drie kolommen: internet, nieuws en sociaal. Een groot voordeel van Qwant is dan het  helemaal geen advertenties heeft. Het geld komt binnen doordat het bedrijf de techniek verkoopt aan ondernemingen.
qwant

Het Zwitserse Hulbee (https://hulbee.com/)  houdt evenmin persoonlijke gegevens vast. Er zijn wel op de persoon gerichte advertenties, maar die zijn gebaseerd op de huidige zoekactie. Hulbee heeft een mooie woordenwolk, waarmee je je zoekactie kunt verfijnen of verleggen. De machine wordt vooral geschikt bevonden voor publieke omgevingen omdat gewelddadige en pornografische content wordt geblokt.

Omnity (https://www.omnity.io/)  is een associatieve semantische zoekmachine met een grafische weergave. Het schijnt vooral bedoeld te zijn voor studenten en onderzoekers.  Je kunt gewoon een zoekterm invullen, maar ook een volledig document als zoekobject opgeven. Ik denk dat er nog heel wat valt te perfectioneren aan deze zoekmachine, maar als je een sneak preview wilt van de toekomst van het zoeken, moet je Omnity zeker bekijken.
omnity

Wil je de wereld een beetje beter maken dan kun je gebruik maken van Goodsearch (https://www.goodsearch.com/) of Ecosia (https://www.ecosia.org/).  Beide zoekmachines doneren een deel van de advertentie-inkomsten uit zoekacties aan goede doelen. Bij Goodsearch kun je zelfs je eigen goede doel benoemen. Hoe meer je zoekt, hoe meer je geeft.

Alltheinternet (http://www.alltheinternet.com/) heeft een uitgesproken ouderwetse uitstraling, maar het handige is dat je er kunt kiezen  uit een stuk of 40 zoekmachines. Ook kun je je zoekactie laten uitvoeren door alle zoekmachines tegelijk.  Het klinkt iets mooier dan het is, want de lijst bevat bijvoorbeeld ook de zoekmachine van Wallmart, maar er blijven genoeg mooie keuzes over.

Het Zwitserse etools.ch (https://www.etools.ch) benadert 16 zoekmachines tegelijk en laat bij ieder resultaat zien door welke machine het  is gevonden.

Yippy (http://www.yippy.com/) heeft een weinig serieus klinkende naam, het komt dan ook voort uit het al even koddig klinkende Clusty, maar het is wel een multisearch engine met een heel fijne feature:  hij geeft bij de zoekresultaten ook een verdeling in rubrieken en toont de websites die de meeste resultaten bevatten.
yippy

SEO-slimmeriken zorgen ervoor dat ‘hun’ sites bovenaan de zoekresultaten verschijnen. Wil jij ze op jouw beurt weer te slim af zijn, gebruik dan Millionshort (https://millionshort.com). Je kunt deze search engine de opdracht geven om de bovenste zoekresultaten (van 100 tot een miljoen) laten verwijderen. Ik vraag me af of het precies werkt zoals wordt gesuggereerd, maar het levert in ieder geval verrassende resultaten op. Een mooie functie is bovendien dat je sites met advertenties kunt uitsluiten

En tenslotte een geweldig leuke semantische zoekmachine die mij persoonlijk veel voldoening heeft gebracht. Whatismymovie (http://whatismymovie.com/) geeft antwoord op vervelende vragen als ‘hoe heet die film  ook alweer waarin die ene acteur  (hoe heet hij toch?) de rol van evangelist speelt die in een andere film ooit de rol van Cyrano de Bergerac vertolkte?’ Type in ‘Cyrano’ en ‘preacher’ en je vindt het antwoord (Leap of faith). Zo mooi kan zoeken zijn.

 

Vagin en peni

F

peniHet was een trip down memory lane, mijn bezoek aan de Internet Librarian International Conference 2016 in het Olympia Conference Center in Londen. In 1999 was ik in hetzelfde zalencomplex voor een bezoek aan de Online Conference. De enige aanpassing die het Olympia sindsdien aan de moderne tijd had gedaan was de tassencontrole, maar daar was het in Londen niet bepaald uniek in. Voor mijn werkgever moest ik destijds een verslag schrijven en ik weet nog dat ik de naam van die nieuwe zoekmachine nog even moest nazoeken in mijn aantekeningen. Oh ja, Google.

Tijdens de ILI was Google in een aantal presentaties prominent aanwezig, vaak in combinatie met meer moderne termen als Big Data en Artificial Intelligence. En waar Google toen werd geprezen als de toekomst van het zoeken, waren er nu meer kritische geluiden te horen. Is ons gebruikersprofiel van invloed op wat we voorgeschoteld krijgen? Is Google een Big Brother gevoed door Big Data? Moeten we een stel oncontroleerbare algoritmes laten bepalen welke zoekresultaten we te zien krijgen? Wie een tijdje geleden op “Top economist” zocht op Google, kreeg Trump als één van de eerste resultaten. Foutje in de algoritmes. Google geeft als je slokd of ende intikt automatisch de suggestie slokdarm en endeldarm, maar als je vagin of peni intikt, heeft het geen idee wat je bedoelt. Hoe fatsoensrakkerig mag een zoekmachine zijn? Als ik het Oudnederlandse woord bloken zoek, vind ik pas op de tweede pagina een resultaat, omdat Google voor mij bepaalt dat ik een tikfout heb gemaakt en alles over blokken wil weten. De onverholen weerzin die ik bij een aantal sprekers opmerkte over dit soort fouten/interpretaties/bedilzucht is eigenlijk best begrijpelijk. Informatieprofessionals willen  dat onze klanten een resultaat krijgen dat klopt en dat een zoekmachine bij voorkeur alle resultaten geeft die exact beantwoorden aan de zoekopdracht.

Google indexeert vele miljarden webpagina’s en het aantal groeit nog steeds. Infoglut, het verschijnsel dat de hoeveelheid data zo groot wordt dat er steeds minder zinvolle informatie aan te onttrekken valt, is een reëel risico. Op dit niveau zijn recht-toe-recht-aan zoekmachines met exacte zoekresultaten geen optie meer. We moeten leren leven met slecht controleerbare machinale interpretaties en met zoekresultaten waarvan Google dénkt dat we ze willen zien. De grote zoekmachines zullen steeds meer gestuurd worden door kunstmatige intelligentie. Tegenspartelen heeft evenveel zin als protesteren tegen slecht weer. Maar er ligt natuurlijk een mooie taak voor de informatieprofessional om zijn klanten te wijzen op de beperkingen van Google, maar ook Bing, Yahoo, Yandex enz., en om ze kritisch te leren omgaan met de zoekresultaten.

En het is natuurlijk niet allemaal kommer en kwel. Het zit er dik in dat de tendens richting machine learning als prettig bijeffect zal hebben dat de behoefte aan zoekmachines voor beperkte dataverzamelingen (ik noem maar iets: bibliotheekcatalogi!) groeit. Old school zoekmachines die, als je zoekt op Trump, niet als resultaat “Top economist” geven en ook niet “Presidentskandidaat”, maar gewoon “Trump”, omdat dat is wat je zoekt. Is dat geen troostrijke gedachte?

TPDL 2016

img_1392Begin september 2016 was ik bij het TPDL 2016 in Hannover. Het TPDL is een conferentie betreffende de theorie en praktijk van Digitale bibliotheken. Deze conferentie was tot 2011 bekend onder de naam ECDL (nee, niet het European Computer Driving Licence, maar dat was wel de reden van de naamswijziging) en wordt al bijna 20 jaar gehouden. img_1390
De conferentie werd gehouden in het Hannover Congress Centrum, wat op ongeveer 25 minuten lopen vanaf mijn hotel lag, naast de Hannover ZOO en een groot park.
De conferentie was een mix van keynotes, presentaties van wetenschappelijk onderzoek en workshops (soms hands-on). Hieronder een verslag van een deel van wat ik heb gezien.

De eerste keynote was door David Bainbridge (University of Waikato, Hamilton, New Zealand) met als titel “Mozart’s laptop”, wat mij intrigeerde. Op zich was het onderwerp interessant, namelijk over muziek in de Digitale Library, maar het ging eigenlijk niet over Mozart’s laptop. Ik had verwacht te horen hoe Mozart gebruik zou maken van een laptop als die beschikbaar was in zijn tijd. In plaats daarvan ging het over een systeem (Expediteee) waarin men op een gelijksoortige manier tekst, plaatjes, vector graphics en muziek kon opgeslaan en samenvoegen. Grappig was dat in muziek gezocht kon worden door “query by humming”. Hier werd gebruik gemaakt van audio finger printing. Ook werd Online Dynamic Time Warping (OTW) getoond. Dit is een techniek waarbij de computer de muziek kan volgen die van bijv. een iPad gespeeld wordt. Hiervoor is een soort OCR voor muziekschrift nodig zodat de computer de noten kan lezen en interpreteren, de gespeelde muziek moet geanalyseerd worden en hieruit wordt bepaald welk stuk van de muziek op dat moment wordt gespeeld. Zo kan de computer de bladmuziek op het juiste moment “omslaan”, zodat de musicus dat niet hoeft te doen.
Ook werd er een manier getoond om muziekvideo’s uit te breiden met extra lagen, zoals lyrics, scores, trivia en gitaarakkoorden. Deze lagen konden dan getoond worden terwijl de muziekvideo speelt.

Er was een presentatie waarin het volgende doel werd gesteld: spotify the sciences. Door het delen van verhalen kan meer onderzoek gedaan worden, dus deel de kennis met de wereld. Dat was the bereiken door bibliotheken, archieven en musea te verbinden, data delen makkelijk te maken, primaire data persistent beschikbaar te maken, een corpus moet clickable zijn (eenvoudig downloaden/gebruiken van hele selectie) en collaborative research moet beter ondersteund worden. Allemaal zaken waar iedereen het vast over eens is, maar wat toch lastig te bereiken zijn.

Er was een heel gepassioneerde presentatie van Annika Hinze: The challenge of creating geo-location markup for digital books. Leuk om naar te luisteren omdat de presentatrice duidelijk er heel enthousiast over was. Het ging over Literacy tourism (het boek lezen op de plaats waar het over gaat) en vooral over de problemen die overkomen moeten worden om de data te verkrijgen: welke soort kaart gebruik je? Het detailniveau is niet altijd hetzelfde namelijk en moet passen bij het boek. De hiërarchie in het verhaal is ook belangrijk. Soms gaat het hele verhaal over een bepaalde plek (bijv. een tuin), dit kan je dan aangeven als een gateway. Daarna gaat het verhaal over specifieke plekken binnen die plek (De Chinese tuinen), die je aangeeft als area. Ook kan er beschreven worden hoe je van een plek naar een andere plek loopt (bijv. van de Chinese tuinen naar de waterval), dit wordt aangegeven met een path. Tenslotte kan een specifieke plek worden beschreven (bijv. onder de waterval), dit is dan een point. img_1394
Om dit allemaal goed te kunnen doen moet de markup met de hand gedaan worden. Als een specifieke plek in het verhaal genoemd wordt, gaat vaak de tekst hierna ook nog over die plek of houdt daar verband mee. Omdat het handwerk is, moeten duidelijke instructies worden gegeven aan de personen die het uitvoeren om zoveel mogelijk consistente resultaten te krijgen.
Soms is het gewoon niet duidelijk om welke locatie het gaat (te globaal aangeduid), soms is de locatie niet te vinden, soms wordt er alleen maar gepraat of gedacht over een locatie, en soms zijn het fictionele locaties (platform 9 3/4 uit Harry Potter). De beslissingen die genomen worden hierover tijdens het maken van de markup, moeten dan ook onderbouwd opgeslagen worden.

David Wilcox van DuraSpace hield een workshop over Fedora 4, wat interessant voor ons is aangezien we Fedora 3 gebruiken in onze nieuwe repository infrastructuur en de overstap naar Fedora 4 een kwestie van tijd is. Fedora staat voor Flexible Extensible Durable Object Repository Architecture en is zoals gezegd de basis van onze repository infrastructuur. Het verschil tussen Fedora 3 en 4 is dat de laatste nog meer gebruik maakt van open standaarden, het alles opslaan als een web resource waarvan alle “eigenschappen” (properties zoals metadata) opgeslagen zijn als RDF triples. Hierdoor is Fedora 4 Linked Data Platform compatible. Hiernaast gebruiken ze open standaarden zoals Memento (voor versioning) en WebAccessControl (voor authorization, XACML wordt nog wel ondersteund).
Interessant is dat Fedora 4 echt terug naar de basis gaat; het gaat vooral om het duurzaam bewaren van de objecten en gerelateerde metadata en het heeft een API om objecten en metadata toe te voegen, lezen, wijzigen en verwijderen (CRUD), inclusief transactions en versioning. Alle andere zaken (zoals zoeken en afbeelden van objecten) worden uitbesteed aan andere componenten. Dit lijkt in eerste instantie nogal een mager systeem op te leveren wat eigenlijk niet veel kan. Maar op zich is die focus goed, want wat het wel doet, doet het als de beste. Andere componenten kunnen op een standaard manier gekoppeld worden aan Fedora 4. Ten eerste via de API. Ten tweede wordt bij elke gebeurtenis (event) binnen Fedora 4 een bericht uitgezonden, waarbij ze gebruik maken van de JMS standaard. Hier kunnen andere componenten naar luisteren en actie ondernemen als er een gebeurtenis is die hen interesseert. Ook kan bijvoorbeeld Apache Camel gebruikt worden om te luisteren naar de berichten, waarbij deze SOLR aanstuurt om de indexen bij te werken. Op deze manier is er een krachtige samenwerking mogelijk tussen componenten waarbij elk component doet waarin ie het beste is.
Zowel met Islandora en Hydra wordt nauw samengewerkt zodat deze componenten goed passen binnen Fedora 4.
In de pauze heb ik even met David Wilcox gepraat over Islandora en met name de CLAW. De CLAW is het project om de volgende generatie van Islandora te maken, die samen kan werken met Fedora 4 en Drupal 8. Hij wist niet precies wanneer de CLAW klaar zou zijn, maar wist wel te vertellen dat er een script zou zijn om makkelijk over te gaan naar de nieuwe versie en dat er gewerkt werd om dit nog makkelijker te maken.
Hierna hebben we nog gekeken naar de REST API die Fedora 4 gebruikt. Hier kan je ook zelf mee spelen op http://demo.fcrepo.org:8080/fcrepo/rest. Bedenk wel dat dit een test systeem is dat elke nacht opgeschoond wordt. Met behulp van SPARQL update kunnen de RDF triples gewijzigd worden. Voor meer informatie zie introducing-fedora-4 en hands-on-with-fedora-4.

Een andere interessante presentatie ging over Stylometrie (Jan Rybicki: Pretty Things Done with (Electronic) Texts: Why We Need Full-Text Access). Stylometrie is het tellen van de telbare kenmerken van teksten. Dus bijvoorbeeld het tellen van woorden, maar niet alleen enkele woorden maar ook woordgroepen. Je kan stylometrie gebruiken om teksten met elkaar te vergelijken door de “afstand” (distance) tussen twee of meerdere teksten te bepalen. Hierdoor kan je achterhalen of een tekst door een bepaald persoon is geschreven, of je kan de chronologie in bepaalde werken van een auteur nagaan.
Je kan ook de wijziging van taalgebruik door de jaren heen zien van een bepaald auteur. Ook kan je zien hoe een vertaler invloed heeft op de stijl van het boek. Jan Rybicki is zelf vertaler en drukt tot zijn spijt nogal een stempel op de vertaling; zijn eigen stijl is duidelijk terug te zien.
Met stylometrie heb je veel teksten nodig. Helaas is het moeilijk om (legaal) aan de teksten te komen, vooral als het budget beperkt is. Teksten via OCR zijn niet geschikt vanwege het grote aantal fouten, al zal het verschil niet te zien zijn als tot 20% van de woorden foutief zijn. De presentator is dus erg voorstander van open access van teksten en verwees ook naar het idee van een vorige presentatie: spotify the sciences.

Hieronder nog enkele andere presentaties en workshops die ik nog kort wil noemen omdat ze apart, leuk of interessant waren.
Ten eerste was er een presentatie over een manier om muziek bij een video te suggereren door iemand van de TU Delft: From Water Music to ‘Underwater Music’: Multimedia Soundtrack Retrieval with Social Mass Media Resources (Cynthia C. S. Liem). Het bleek dat het bij een video vooral om het verhaal gaat en minder om het beeld bij de keuze van de muziek. Ze maakte gebruik van IMdb om een soortgelijke film te vinden en daarin stond dan een referentie naar de film muziek die via last.fm werd gevonden.

Een workshop over text mining was ook interessant: Text mining workflows for indexing archives with automatically extracted semantic metadata (Riza Batista-Navarro). Hierbij ging het over een manier om text mining te gebruiken om beter te kunnen zoeken. Als full-text search wordt toegepast kunnen sommige woorden een dubbele betekenis hebben (zoals bank voor geldzaken of om op te zitten) en dingen hebben vaak meerdere woorden die naar hetzelfde ding verwijzen (zoals bank en sofa). Hierdoor is full-text search minder geschikt om het juiste te vinden. Een oplossing hiervoor is om alleen de belangrijke woorden binnen een tekst te herkennen en van betekenis te voorzien: Named Entity Recognition. Er is een aantal benaderingen:
– dictionary-based: hierbij wordt een set van woorden gebruikt om de entities in de tekst te herkennen. Dit heeft als voordeel dat het simpel is en dat woordenlijsten beschikbaar zijn. Het nadeel is dat woordenlijsten groot zijn, maar niet compleet en de entiteiten overlappen elkaar soms.
– rule-based: hierbij wordt gebruik gemaakt van regular expressions. Bijv. woorden die met een hoofdletter beginnen zijn altijd namen of woorden die eindigen op land, weg of straat zijn altijd geografisch van aard. Iets ingewikkelder is contextual matching, waarbij de context van de woorden de betekenis geeft. Bijv. “Jan werkt bij de KLM”, waarbij “werkt bij” de relatie aangeeft tussen de naam van een persoon en een bedrijf. Het voordeel is dat de handmatig opgebouwde regels precies zijn, maar het nadeel is dat het domeinspecifiek is en een dure ontwikkeling.
– machine learning: hierbij is de computer geleerd hoe het entiteiten uit een tekst moet halen. Hierbij kan men onderscheid maken tussen supervised learning, waarbij veel voorbeelden (trainingsdata) nodig zijn, semi-supervised learning, beetje trainingsdata nodig, en unsupervised learning waarbij geen training data nodig is.
Hierna werd nog uitgebreid gesproken over Elasticsearch, een zoekmachine, die net als SOLR gebaseerd is op Lucene.

De conferentie werd afgesloten met een presentatie van Tony Veale: “Metaphors All the Way Down: The many practical uses of figurative language understanding”. Hij had het vooral over metaforen. Bijvoorbeeld over een bibliotheek waarin alle boeken die ooit geschreven zouden kunnen worden. Dus ook een boek wat een normaal boek lijkt, maar waarvan de laatste paar bladzijdes onzin bevatten, waardoor je eigenlijk niks aan het boek hebt. Zo’n bibliotheek, ook al zou die alle mogelijke boeken bevatten, zou niet zinvol zijn omdat je alleen met zekerheid kan zeggen of je het juiste boek hebt, als je het boek ook helemaal leest. Vandaar deze quote: “What makes a good library is not what you put into it, but what you don’t put into it.”
Verder had hij en zijn team onderzoek gedaan naar tweetbots die op basis van de inhoud van Digital Libraries, tweets schrijven op twitter. Daar kwamen soms hele verrassende uitspraken van de tweetbots uit, zoals:
“One does not simply walk hand-in-hand with violence.”
“Suspicions were once nurtured by informed investigators.”
Meer hiervan is te vinden op twitter onder @MetaphorMagnet, @MetaphorMirror@bestofbotworlds en de tweetbot die delen van ebooks tweet @horse_ebooks

De volgende TPDL conferentie is op Thessaloniki in Griekenland van 17 tot 21 september 2017, dus ik hou me zeker aanbevolen.

Dominant design

Aan geboden een video recorder 2000 draaid wel is een video band bij verdere werking onbekend.misschien iets voor de verzamelaar.

v2000

Die advertentie op Marktplaats brak mijn hart, niet alleen vanwege de aandoenlijke variant van het Nederlands, maar vooral omdat dit in een notendop de teloorgang van een superieur stukje Nederlandse technologie demonstreert. Video2000 had meer kwaliteit dan VHS, maar toch werd dat laatste systeem de standaard. Videorecorders werden alleen nog gemaakt voor VHS-banden en Video2000 ging kansloos ten onder. Het is het principe van dominant design: na een rommelige beginperiode wordt één systeem , om wat voor reden ook, leidend en past de hele markt zich aan, ook als er betere alternatieven voorhanden zijn.

Dat verschijnsel zie je ook in het publicatieproces. Van oudsher worden artikelen gepubliceerd in tijdschriften omdat het nu eenmaal niet rendabel is om ze individueel te drukken en te verspreiden. In onze digitale tijd spelen die kosten nauwelijks een rol meer, maar toch blijft het tijdschrift, ook digitaal, een dominante publicatievorm. Raar eigenlijk. En dan heb ik het nog niet eens over de door het verleden bepaalde, maar al lang niet meer noodzakelijke dominantie van uitgevers in het digitale publicatieproces.

Dominant design is ook heel mooi te zien in het distributiemodel voor e-books. Van sommige leveranciers mag een universiteit een e-book maar uitlenen aan één persoon en slechts voor een beperkte periode, kortom dezelfde regels die je hanteert voor een papieren boek. Het verschil is dat een e-book een verzameling digitale nullen en eentjes is die je, letterlijk, voor hetzelfde geld onbeperkt aan de volledige wereldbevolking ter beschikking zou kunnen stellen. Natuurlijk begrijp ik wel dat er een verdienmodel moet zijn, maar niemand zou op deze specifieke formule zijn uitgekomen als hij al niet had bestaan voor het papieren boek. Het is alsof je een paard voor een auto spant omdat we dat vroeger nu eenmaal ook deden. Dominant design in optima forma.

Maar de meest schrijnende vorm van dominant design in ons vak bevindt zich aan de consumentenkant. Om een groot bereik te krijgen moest tekst tot heel recent worden gedrukt en verspreid. Omdat informatie dus relatief duur en schaars was, gingen we er terecht stilzwijgend van uit dat alles wat we tot ons kregen een zekere kwaliteit had, want je mag toch zeker verwachten dat je waar voor je geld krijgt! En dat impliciete vertrouwen is er nog steeds, getuige bijvoorbeeld de mevrouw die zeker wist dat de vluchtelingen onze banen krijgen omdat het op Facebook had gestaan. Een exces? Misschien, maar dat geldt niet voor al die mensen die klakkeloos het eerste het beste zoekresultaat van hun zoekmachine als waar accepteren zonder naar de bron te kijken (als Google zelf al niet als de bron wordt gezien). Die vorm van dominant design is kwalijker en waarschijnlijk hardnekkiger dan de voorbeelden die ik hierboven beschreef. En we zijn er nog lang niet van af.