Slim gebruik van data
Met CDD+ archiefbeheer optimaliseren
Tekst Vincent Lageweg en Gerben Kleine
Vincent Lageweg is redactielid Od. Gerben Kleine is manager Digitaliserings- en Archiveringsdienst bij de Justitiële Informatiedienst van het ministerie van Justitie en Veiligheid
Het Centraal Digitaal Depot (CDD+) is de centrale opslagplaats voor digitale informatie binnen de ministeries van Justitie en Veiligheid en Asiel en Migratie. Het dient als een gedeeld platform voor verschillende ketens, zoals de strafrechtketen en de migratieketen, waar aangesloten ketenpartners informatie kunnen opslaan en ophalen.
In sommige ketens wordt het CDD+ ingezet als informatie-uitwisselingsplatform. Organisaties werken hier samen aan de dossiers in hun primaire processen. Bijvoorbeeld: als de IND een document naar het COA stuurt, wordt deze slechts een keer opgeslagen in het CDD+ en per organisatie voorzien van een eigen verzameling metadata. Hierdoor kunnen beide organisaties dezelfde informatie raadplegen zonder duplicatie. Enkelvoudige opslag, meervoudig gebruik. Daarnaast regelt het depot de duurzame toegankelijkheid en archivering van de data, zelfs als organisaties verschillende bewaartermijnen hanteren. In andere ketens wordt het CDD+ vooral gebruikt als archiefsysteem. In dat geval is er geen actieve samenwerking, maar fungeert het depot als de opslagplaats van afgesloten dossiers. De “plus” in CDD+ verwijst naar het feit dat de Justitiële Informatiedienst (Justid) het archivistisch beheer verzorgt. Dit omvat onder andere conversies, overbrenging en vernietiging van documenten. Het CDD+ is een gemeenschappelijke basisdienst voor het ministerie, die voor alle taakorganisaties beschikbaar is. Momenteel maken ketens er gebruik van, inclusief de ketenpartners bij andere ministeries, zoals Buitenlandse Zaken. Ook dataverzamelingen die niet ketengebonden zijn, groeien snel. Zeker nu er op grote schaal archiefachterstanden worden weggewerkt. Dit gaat zowel om papieren archieven die door Justid onder vervanging zijn gescand, als om digitale documenten die afkomstig zijn uit allerlei gekoppelde primair-processystemen.
‘OOK DATAVERZAMELINGEN DIE NIET KETENGEBONDEN ZIJN, GROEIEN SNEL’
Slimmere metadata en AI-toepassingen
Data komen in verschillende vormen voor, zoals gestructureerd in tabellen en databases en ongestructureerd in documenten. Justid zet steeds meer in op het automatisch extraheren van metadata uit documenten, zoals geboortedata of de start- en einddatum van dossiers. Deze intelligente metadatering wordt als dienst aangeboden aan archiefvormers. Bij de opslag in CDD+ worden registraties uit verschillende bronsystemen samengevoegd en gekoppeld aan de digitale informatieobjecten. Dit is essentieel voor het beheer van informatie binnen de justitiële ketens. De bewaartermijn van een dossier kan afhangen van handelingen binnen de keten. Bijvoorbeeld: een dossier met een afgewezen asielaanvraag mag niet bewaard blijven, terwijl een dossier met een toegewezen verblijfsvergunning juist voor permanente bewaring in aanmerking komt. Door metadata uit verschillende bronnen te combineren, kan Justid efficiënter bepalen welke informatie bewaard of vernietigd moet worden. De verantwoordelijkheid voor het archief blijft altijd bij de oorspronkelijke eigenaar; Justid faciliteert hen in de uitvoering van archieftaken. Momenteel worden er experimenten uitgevoerd om AI in te zetten voor het verder verbeteren van metadata-extractie. Zo kan AI helpen om ontbrekende metadata in dossiers te achterhalen. Of een ander voorbeeld, als een bepaalde zaak een bewaartermijn heeft van 25 jaar na de geboorte van een persoon, moet gecontroleerd worden of er geen andere documenten in het dossier zitten met een andere bewaartermijn. AI kan helpen deze documenten te onderscheiden en relevante data te achterhalen. Justid werkt bij deze experimenten samen met wetenschappers van de universiteiten van Maastricht en Amsterdam.
DE BEWAARTERMIJN VAN EEN DOSSIER KAN AFHANGEN VAN HANDELINGEN BINNEN DE KETEN
Slimmer gebruik van data
Het CDD+ bevat bijna 140 miljoen documenten, die bestaan uit meerdere pagina’s met ongestructureerde data. Dit vormt een waardevolle bron van kennis. Met de dataextractie wordt het mogelijk om achteraf patronen te ontdekken in de archiefobjecten. Dit biedt Justid de mogelijkheid om nieuwe diensten te ontwikkelen ter ondersteuning van het primaire proces. Justid wil de data niet alleen maar bewaren, maar ook inhoudelijk gaan ontginnen. Deze data kunnen dan beschikbaar worden gesteld voor ondersteuning van de primaire processen, bijvoorbeeld voor analyses naar de effectiviteit van het beleid of kwantitatief onderzoek op basis van beleidsdocumenten. Het ministerie beschikt over een enorm omvangrijke dataset die kansen biedt om de eigen informatiehuishouding te verbeteren. AI kan leren wat een goed geordend dossier is en welke metadata daarbij horen. Door een verzameling goed geordende dossiers te vergelijken met minder gestructureerde data, kan AI helpen bij het opschonen en ordenen van informatie. Dit kan leiden tot een grote kwaliteitsverbetering in informatiebeheer en selectieprocessen. Met de extractie van metadata en de inzet van innovatieve AI-toepassingen wil Justid de gegevensboekhouding verbeteren en de datakwaliteit binnen het justitiële domein naar een hoger niveau tillen. Door digitale waarmerken aan documenten toe te voegen, blijft informatie gegarandeerd ongewijzigd en betrouwbaar voor alle ketenpartners (Trusted Third Party). Bij het inzetten van AI en data-analyse binnen het CDD+ staat zorgvuldigheid centraal. Justid werkt binnen strikte wet- en regelgeving, zoals de AVG, de Wet justitiële en strafvorderlijke gegevens, de Wet politiegegevens en de Archiefwet. Dit betekent dat gegevens alleen gebruikt mogen worden voor vastgestelde doelen en dat transparantie over datagebruik essentieel is. Een belangrijk aandachtspunt is de ethiek rondom AI-toepassingen. Hoewel AI kan helpen bij het efficiënter beheren van informatie, blijft menselijke controle noodzakelijk. Verder worden voor trainingsdoeleinden “synthetische” datasets samengesteld, op basis van de karakteristieken van de echte data. Door slim gebruik te maken van de data in het CDD+ kan Justid het archiefbeheer optimaliseren, maar ook waardevolle inzichten genereren voor de justitiële ketens.