Stukken vrijgegeven onder de Woo
Niet goed toegankelijk
Tekst Maarten Marx
Maarten Marx is docent en onderzoeker aan de Faculteit der Natuurwetenschappen, Wiskunde en Informatica van de Universiteit van Amsterdam
Samen met IMI, Open State Foundation en de VNG monitort de Universiteit van Amsterdam (UvA) het openbaar maken van stukken die vallen onder de Wet open overheid (Woo). Onze partners richten zich daarbij vooral op het afhandelingsproces en de duur daarvan. UvA peilt de kwaliteit van de vrijgegeven documenten. Dit doen we door ons voor te doen als verschillende personages, zoals een journalist, wetenschapper, Kamerlid, historicus over 100 jaar, visueel gehandicapte, of een AI-start-up, en dan te bepalen of de stukken snel en eenvoudig bruikbaar zijn voor zo’n personage.
In de wetenschap noemen we zulke bruikbare gegevens FAIR data: openbaar gemaakte stukken moeten vindbaar, toegankelijk, koppelbaar en herbruikbaar zijn. Via verschillende wetten heeft de overheid zich hier ook aan gecommitteerd. In dit artikel kijken we of stukken vindbaar en toegankelijk zijn. Kun je eigenlijk wel spreken van een openbaar gemaakt stuk als het niet terug te vinden of niet toegankelijk is? We zeggen dat een document vindbaar is als het bij een zoekmachine als Google of PLOOI naar boven komt op een zoekvraag die bestaat uit een paar woorden die in het document staan. Toegankelijkheid heeft meerdere aspecten. Wij beperken ons voorlopig tot de volgende vraag: wat horen we als we een openbaar gemaakt besluit op een Woo-verzoek laten voorlezen door een computer? Zo’n besluit is een simpel, heel herkenbaar document. Het heeft de vorm van een brief en is vlak voor de publicatiedatum door een jurist geschreven, waarschijnlijk in Word. Huidige, op AI gebaseerde, computervoorleessoftware heeft met zulke stukken geen moeite meer en we verwachten dan ook weinig of geen verschil tussen lezen en voorlezen.
Jammer genoeg is dat niet het geval.
Stil
Wij hebben alle 3.494 besluitbrieven vanaf 2020 op het platform Open.overheid.nl (ook wel PLOOI genoemd) geanalyseerd. Dit zijn besluiten genomen door ministeries. Van deze brieven hebben we steeds alleen de eerste pagina bekeken, juist omdat die enorm gestandaardiseerd zijn en er echt gewoon als een brief uitzien. In 22,5 procent van alle brieven blijft de computer volkomen stil bij voorlezen. In deze gevallen zien niet-visueel gehandicapten een gewone brief, maar zover de computer het kan zien staat er geen enkel karakter in. In de overige gevallen varieert wat we horen enorm, van precies wat er staat tot volkomen onbegrijpelijke onzin. De eerste pagina van zo’n besluit bevat gemiddeld 275 woorden. Als de computer die voorleest is gemiddeld 1 op de 15 woorden een niet-bestaand woord. Dat zijn 18 niet-bestaande woorden per bladzijde. Als voorbeeld de eerste alinea van een brief van het ministerie van BZK van 2021-03-01. Dit is met Control C, Control V uit het originele pdf-document (Bit.ly/3nfuFyb) gehaald: Geachte hear In uw brief van 22 november 2019, gericht aan hat minlstaria van Landbouw, Natuur an Voadsaikwalitait (hiarna: LNV) haaft u met aan baroap op da Wat opanbaarhaid van bastuur (hiarna: Wob) informatia varzocht omdat u inzicht wil krijgan in da totstandkoming van hat maatragalanpakkat voor da stikstof- PFASproblamatiak van 13 novambar 2019, Dat de computer dit (voor)leest in plaats van de correcte tekst zoals die is ingetypt, betekent ook dat deze brief heel slecht terug te vinden is. Als we in Google of PLOOI zouden zoeken op “PFAS-problematiek” komt deze brief niet naar boven, domweg, omdat voor de computer het woord “problematiek” er niet instaat. De 22.5 procent “stilte”-brieven zijn natuurlijk met geen enkel zoekwoord terug te vinden.
Zwartlaksoftware
Hoe kan dit en kan het ook anders? Het lijkt erop dat dit komt door de zwartlaksoftware in gebruik bij die ministeries. Deze software wordt gebruikt om stukjes tekst die niet openbaar mogen worden zwart (tegenwoordig vaak grijs) te lakken en te zorgen dat ook slimme hackers niet toch dat wat onder de lak stond naar boven kunnen halen. Als we de niet-bestaande woorden bekijken lijkt het erop dat deze software zo’n brief behandelt als een document van 100 jaar oud, in plaats van als een net vers digitaal aangemaakt stuk. De laksoftware lakt woorden weg, maakt vervolgens een foto van de bladzijde, en gebruikt dan optische karakterherkenning om de tekst die niet gelakt was weer leesbaar voor de computer te maken. Zoals we zagen gaat dit proces gepaard met enorm veel fouten. Dat dit proces wordt toegepast bij vrijgegeven stukken die alleen nog in papieren toestand beschikbaar zijn is logisch; men kan niet anders. Maar voor digitaal beschikbare stukken is dit helemaal niet nodig, zoals verschillende decentrale overheden als Hoeksche Waard laten zien. De tekst die de computer leest in een besluit uit deze gemeente is identiek aan de tekst die wij als mens zien staan in de pdf. Precies wat je verwacht, en ook wat de Woo voorschrijft in artikel 2.4, lid 3.
Verschillen
Hoe doen de verschillende ministeries het? We zien grote verschillen. Het aandeel brieven met een eerste pagina zonder computer leesbare tekst varieert van 62 procent voor het ministerie SZW tot maar 0,6 procent bij VWS (figuur 1 hieronder). Het percentage niet bestaande woorden op die eerste pagina varieert van gemiddeld 11,3 procent bij AZ tot 4,4 procent bij het ministerie van Financiën (figuur 2 hieronder).
Figuur 1.
Percentage documenten met geen enkel computer leesbaar karakter, uitgesplitst per ministerie (gemiddelde is 22,5 procent)
Figuur 2.
Percentage niet bestaande woorden op eerste bladzijde van een besluit, uitgesplitst per ministerie