Duurzaam toegankelijke algoritmes
Samen naar betere oplossingen
Tekst Rens Ouwerkerk en Vincent Hoolt
Rens Ouwerkerk is senior adviseur informatiebeheer bij de gemeente Amsterdam en gedetacheerd bij het Nationaal Archief als adviseur kennisproducten. Vincent Hoolt is adviseur recordkeeping bij het Nationaal Archief
Archiveren gaat al eeuwen op dezelfde manier. Er ontstaat een document. Dat document wordt opgeborgen in een kartonnen of digitale doos en als iemand nog een keer wil weten wat er ooit gebeurd is, dan halen we het document weer tevoorschijn. Een kind kan de was doen. Maar wat als we deze truc toepassen op zelflerende algoritmes? Stukjes code die zichzelf voortdurend aanpassen? Kun je die in een digitale archiefdoos stoppen en zo ja, wat heb je er dan aan? Volgens Vincent Hoolt en Rens Ouwerkerk van het Nationaal Archief moeten we hier anders naar kijken.
Om te beginnen: we praten al snel over een algoritme en gelijk kennen en benoemen we alle risico’s en gevaren. Maar wat is een algoritme eigenlijk? Het woord algoritme roept het beeld op van een computer die een moeilijk wiskundig probleem oplost. Maar in essentie is een algoritme niets anders dan een eindige set instructies voor het bereiken van een doel. Een recept kun je dus ook zien als een algoritme. Als we het tegenwoordig over algoritmes hebben, is het idee erachter meestal specifieker. Dan gaat het over zelflerende programma’s die op basis van instructies en wat zij leren beslissingen nemen. Dit machine learning is een belangrijk aspect. Het heeft namelijk ook gevolgen voor de archivering.
Complex
Archiveren is een middel, geen doel op zich. Een belangrijk doel is dat de overheid verantwoording kan afleggen aan de burgers. Daarom is het goed om kritisch te kijken of het middel dat we inzetten daadwerkelijk bijdraagt aan het doel. Begrijp ons niet verkeerd, we vinden het natuurlijk belangrijk dat we algoritmische toepassingen op een duurzaam toegankelijke manier ontwerpen. Dat wil echter niet zeggen dat we de standaardarchiefaanpak klakkeloos kunnen hanteren. Om twee redenen. Ten eerste ontwikkelt een zelflerend algoritme zich voortdurend, daardoor is het niet zo eenvoudig om dit als een gefixeerde eenheid te bewaren. Belangrijker: bepaalde algoritmes zijn dusdanig complex, dat zelfs een superspecialist moeite heeft om te begrijpen hoe ze werken. De vraag moet daarom niet zijn: hoe bewaren we dit spul? De vraag moet zijn: hoe leggen we uit hoe dit spul werkt en hoe beslissingen tot stand zijn gekomen?
‘INFORMATIESPECIALISTEN BEGRIJPEN ALS GEEN ANDER WAT DE INHOUDELIJKE WAARDE VAN DATA IS’
Geen zin
Vanuit het KIA-netwerk ging een aantal mensen aan de slag om een handreiking te maken over duurzaam toegankelijke algoritmes. Deze handreiking gaat uit van de hiervoor gestelde vraag, want al snel was duidelijk dat deze beter aansluit bij het doel als we zaken vastleggen als: voor welk doel wordt dit algoritme ontwikkeld, welke trainingsdata worden er gebruikt en wat weten we over de betrouwbaarheid van de gebruikte trainingsdata? In de handreiking knipten we algoritmische toepassingen op in vier onderdelen: input (trainingsdata), output (de informatie die met behulp van het algoritme tot stand komt), logica (het datamodel met de rekenregels) en documentatie (hoe is de algoritmische toepassing tot stand gekomen en welke afwegingen zijn gemaakt). We ontdekten al snel: al deze componenten klakkeloos bewaren heeft geen zin. De essentie van de in 2020 gepubliceerde handreiking is dat er niet een juiste manier is om een algoritmische toepassing duurzaam toegankelijk te ontwerpen. Afhankelijk van de potentiële impact, kun je het accent op verschillende aspecten leggen. De handreiking beschrijft vier impactprofielen met bijbehorende uitgangspunten. Soms is uitlegbaarheid van een algoritme bijvoorbeeld vooral gebaat bij goede documentatie, waarin op metaniveau ontwerpkeuzes en risicoafwegingen zijn beschreven. In andere gevallen, waarin bijvoorbeeld met behulp van een algoritme een Awb-besluit wordt genomen, is het daarentegen belangrijk om inzicht te hebben in de gebruikte trainingsdata en het datamodel, zodat een individuele beslissing kan worden gereproduceerd.
Ontwerpkeuzes
Zo mogelijk nog belangrijker dan het achteraf kunnen verantwoorden, is het maken van de juiste ontwerpkeuzes zodat een algoritmische toepassing betrouwbaar werkt. Juist daarvoor biedt de handreiking aanknopingspunten, zoals: hoe analyseer je of trainingsdata geschikt zijn om een algoritme mee te voeden? Want als de trainingsdata niet deugen, dan zal het algoritme waarschijnlijk patronen ontdekken die ook niet deugen. Hier zit een belangrijke toegevoegde waarde van onze vakgroep: informatiespecialisten begrijpen als geen ander wat de inhoudelijke waarde van data is. Door dit perspectief te combineren met de technische kennis van dataspecialisten, hebben organisaties het gouden ei in handen. Hamer dus niet zozeer op het belang van archivering en verantwoording achteraf, maar draag bij aan een goed ontwerp en neem de verantwoordingsfunctie daarin mee.
‘WAT NIET MEER KAN: HET NEGEREN VAN ALGORITMES EN HET ENKEL BEWAREN VAN OUTPUT’
Zwakste schakel
Archiveren van algoritmes in de meest pure vorm, namelijk het bewaren en beschikbaar houden, dat is onvoldoende om accountability te regelen. Het is meestal niet mogelijk en levert schijnveiligheid. Het gaat veel meer om een combinatie van maatregelen. Zorg voor beleid, denk mee bij het maken van ontwerpkeuzes, documenteer, toets periodiek en stel informatie beschikbaar. Dat laatste kan heel goed via een algoritmeregister, inmiddels een bekende best practice die meer zoden aan de dijk zet dan een algoritme in een archiefsysteem proberen te persen. Geen enkele maatregel staat echter op zichzelf, het systeem is wat dat betreft zo sterk als de zwakste schakel. Wat niet meer kan: het negeren van algoritmes, het enkel bewaren van output, niet betrokken zijn. Wees actief en ga het gesprek aan, met de handleiding in je achterzak. En zie je onduidelijkheden, ruimte voor verbetering? Kom op de lijn! Samen komen we tot steeds betere oplossingen.