Terug naar platte tekst
De stille revolutie in de informatiehuishouding van de overheid
Tekst Pieter Verbeek
Pieter Verbeek is freelancejournalist
De Nederlandse overheid beheert haar informatie, te veel in bestandsformaten die vooral zijn ontworpen voor printers en niet voor computers. Denk aan Word en pdf. Het lijkt onschuldig, maar leidt tot hoge kosten, lage vindbaarheid, enorme duplicatie in datacenters en een groeiende afhankelijkheid van brute kracht AI om alsnog betekenis uit documenten te peuteren. ‘Het is alsof we met een bulldozer een huis binnen willen terwijl we de sleutel hebben.’
Wat er mis kan gaan als informatie niet vindbaar, verbonden of betrouwbaar is, hebben verschillende incidenten de afgelopen jaren laten zien. Zo lag er in 2017 al een memo over de ernstige structurele problemen rondom de kinderopvangtoeslag. Die kwam pas naar boven tijdens de parlementaire enquête. Als die memo niet in een Word of pdf maar in een machine-uitleesbaar bestand had gestaan, was het binnen een kwartier gevonden, stelt technologiefilosoof en initiatiefnemer van de pilot Informatie Autonomie Martijn Aslander. ‘Word is het slechts denkbare opslagformaat voor informatie, en is primair bedoeld voor printers, niet voor computers en ook niet voor mensen,’ stelt hij. Veel hedendaagse informatieproblemen zijn daarnaar terug te leiden.
Nieuwe informatieoplossing
Eind oktober is de pilot Informatie Autonomie gestart om te werken aan deze ongemakkelijke waarheid. De pilot, die loopt tot eind maart, onderzoekt of het mogelijk is om voor slechts 1 à 2 procent van de huidige kosten een informatieoplossing te realiseren, die 70 tot 80 procent van de functionaliteit van systemen als SharePoint biedt. Maar dan met minder grote datavolumes, betere datakwaliteit, veiligere lokale opslag, betere machineleesbaarheid en hogere gebruikerstevredenheid. De pilot kijkt of Markdown, een lichtgewicht tekstformaat uit de familie van platte tekstbestanden, een volwaardig alternatief kan zijn voor dominante kantoorformaten als Word en pdf bij 80 procent van de dagelijkse informatiebehoefte van eindgebruikers. Een van de gevolgen van de keuze voor opslagformaten als Word en pdf is de explosieve groei van opslagvolumes binnen datacenters. Aslander: ‘80 Procent van de datacenters bevatten data die duplicaten zijn. Er staat meer PowerPoint op de Nederlandse datacenters dan porno. Dat zijn kopieën van kopieën van kopieën in back-ups. Dat is allemaal ballast. En om te kijken wat er in al die informatie staat, is er zware AI-capaciteit nodig. Het is alsof we met een bulldozer proberen een huis binnen te gaan terwijl we de sleutel hebben.’
‘WORD IS HET SLECHTS DENKBARE OPSLAGFORMAAT VOOR INFORMATIE’
Afstoffen van basics
In de pilot werkt een multidisciplinair “superteam” samen, met deelnemers van onder meer de Belastingdienst, UWV, politie, veiligheidsregio’s en gemeenten. Wouter Bronsgeest, duovoorzitter van de Koninklijke Nederlandse Vereniging van Informatieprofessionals (KNVI), en en associate lector aan de HU, zit samen met oud-regeringscommissaris Informatiehuishouding Arre Zuurmond in de stuurgroep. Hij ziet in de pilot een herwaardering van vakinhoudelijke basisprincipes. ‘Voor mij is de kern dat we met de pilot een aantal basics weer afstoffen en in de nieuwe tijd brengen, zoals Markdown en professionele kennis. En dan zie je ineens het effect dat je je engineers beter kunt helpen en informatie op een totaal andere manier kunt opslaan en terugvinden.’ De keuze voor Markdown als opslagformaat is volgens Bronsgeest niet nostalgisch, maar pragmatisch. ‘Platte tekstbestanden zijn volledig machineleesbaar en uitstekend te combineren met metadata en ontologieën.’ En dat is hard nodig om AI en taalmodellen succesvol te laten zijn, vult Aslander aan. ‘AI kan echt toverkracht bieden, maar je hebt er wel gestructureerde informatie voor nodig. Een gebrek aan ontologie en metadata zorgt ervoor dat AI moet gokken. Hoe zuiverder de informatie, hoe minder de zogeheten hallucinaties.’ Wanneer documenten niet langer als opgemaakte eindproducten worden opgeslagen, maar als tekst met opmaakinstructies en expliciete metadata maakt dat niet alleen snelle zoekacties mogelijk, zo blijkt uit de pilot. Ook maakt het leggen van relaties tussen documenten makkelijker.
Meer autonomie voor engineers
Wigo4it wordt genoemd als praktijkvoorbeeld. De organisatie, die veel doet voor de G4 op het gebied van data en informatieverwerking in het sociaal domein, heeft een ingrijpende transformatie doorgemaakt waarin ze haar engineers meer autonomie heeft gegeven over hun digitale tools. ‘Wij gebruiken bij Wigo4it nauwelijks nog Word of Excel,’ vertelt Dian van Heijningen, product owner cloud engineering. ‘Al onze techneuten schrijven hun organisatie gerelateerde documentatie in WIKI’s of Obsidian/Notion voor persoonlijk kennismanagement. Daarmee staat alles in Markdown.’ ‘Eigenlijk zit alles wat wij doen in code. Bijkomend voordeel is dat je AI daar vrij makkelijk documentatie over kunt laten schrijven. Je geeft aan: ik wil het in Markdown formaat, volgens dit template en het wordt gegenereerd.’ De keuzevrijheid voor engineers blijkt cruciaal. ‘Als je engineers zelf laat bepalen, dan denk ik dat maar 2 procent voor Word of Excel kiest, en de rest voor iets simpelers,’ zegt Van Heijningen. ‘We hebben de regie teruggelegd bij de engineers. Die kunnen kiezen uit meerdere tools en daarmee beter hun werk doen dan wanneer ze alleen de opgelegde tools van vroeger kregen.’
‘HOEZO MOET JE ALDOOR UITBREIDEN ALS HET OOK DUURZAMER KAN?’
Digitale soevereiniteit
Naast technische voordelen heeft de pilot ook het momentum mee. Ook digitale soevereiniteit speelt een grote rol om naar andere opslagformaten voor overheidsinformatie te kijken. De geopolitieke ontwikkelingen van de laatste tijd hebben overheden bewust gemaakt dat afhankelijkheid van enkele grote leveranciers risico’s met zich meebrengt. Zuurmond plaatst de discussie in historisch perspectief. ‘Wij hebben onbewust vanaf de jaren tachtig een paar afslagen genomen waarin keuzes zitten die, als je nu terugkijkt, ons een ongekende complexiteit en afhankelijkheid hebben opgeleverd. We moeten eigenlijk weer terug naar die eerste afslagen.’ Hij spreekt van ‘deprogrammeren’ in dubbele zin: zowel programmatuur als denkpatronen moeten worden herzien. Taal vormt daarbij wel een barrière. ‘Bijna niemand snapt het. We hebben complexiteiten geaccepteerd die eigenlijk moeten worden teruggeploegd,’ aldus Zuurmond. Volgens hem is er sprake van een overgang van vergelijkbare omvang als die van de agrarische naar de industriële samenleving. ‘We werken in feite nog op kleitabletten in de computer. Die Word-documenten zijn gewoon kleitabletten. We hebben gekozen voor standaarden die dominant waren in de markt en dat heeft ons hier gebracht.’ De pilot pretendeert niet direct een volledige vervanging van bestaande systemen te realiseren. Het doel is een proof of concept dat aantoont dat een groot deel van de dagelijkse informatiebehoefte eenvoudiger, goedkoper en duurzamer kan worden ingevuld. Aslander wijst op de tijd die professionals verliezen door gebrekkige informatievoorziening. ‘Een gemiddelde schermwerker in Nederland is zo’n vijfhonderd uur per jaar kwijt aan niet kunnen omgaan met informatie. Bij het OM, de politie en de Belastingdienst mag je dat getal wel verdubbelen.’ Volgens hem is dat deels het gevolg van verkeerd digitaal werkgereedschap en deels van een opslagformaat waar computers niet goed mee overweg kunnen. Bronsgeest ziet ook effecten op infrastructuurniveau. ‘Als je alles anders opslaat, wordt je database ineens heel klein. Dan heb je ook een gigantisch effect op de aanpak van datacentra. Hoezo moet je aldoor uitbreiden als het ook duurzamer kan?’ De veronderstelling dat grootschalige cloudoplossingen onvermijdelijk zijn, wordt binnen de pilot expliciet ter discussie gesteld.
‘WE WERKEN IN FEITE NOG OP KLEITABLETTEN IN DE COMPUTER’
Ga experimenteren
Volgens Zuurmond is experimenteren essentieel. ‘Ga experimenteren. Zorg dat open source- en digitale soevereiniteitsdenkers leren dat ze nog te veel vastzitten in het kleitablettenparadigma. Doe mee aan de pilot. Maar er moeten ook een community en onderwijs omheen ontstaan.’ Het gaat niet alleen om techniek, maar om een herdefiniëring van het vak. Aslander wijst op het brugbegrip ‘parsen’ als voorbeeld van een concept dat beide werelden, IT en documentbeheer, kan verbinden. Begrip van hoe een computer informatie uitleest, is volgens hem noodzakelijk om werkelijk grip te krijgen op informatiehuishouding. De Pilot Informatie Autonomie raakt daarmee aan een fundamentelere vraag, volgens Aslander: hebben we vanaf de jaren tachtig wel daadwerkelijk geïnformatiseerd, of slechts gedigitaliseerd? Het onderscheid lijkt semantisch, maar heeft grote praktische consequenties. Digitaliseren betekent papier vervangen door schermen; informatiseren vraagt om herontwerp van structuren, standaarden en denkpatronen. Of de pilot erin slaagt om binnen enkele maanden een overtuigend proof of concept neer te leggen, zal blijken. Maar de discussie die zij aanzwengelt, raakt aan de kern van overheidsdocumentatie: de keuze van bestandsformaten, de rol van metadata, de relatie tussen mens en machine en de mate van autonomie in met welke digitale tools je werkt. Die zorgt ervoor dat we ons herbezinnen over iets wat iets ogenschijnlijk eenvoudigs als het opslagformaat van een document. Misschien ligt daar, zoals Aslander betoogt, de sleutel in plaats van de bulldozer.