Tijdsbesparing met tijdlijnen
Tekst Max Muller
Max Muller is Duale PhD-kandidaat bij het Nationaal Archief en de Universiteit Utrecht
De hoeveelheden informatieobjecten die overheidsorganisaties herbergen groeit – voornamelijk vanwege de digitalisering – snel. Vooral het in kaart brengen van processen wordt door deze overdaad aan documenten bemoeilijkt. Er is een nieuw type software nodig waarmee op automatische wijze tijdlijnen kunnen worden gegenereerd op basis van dergelijke ongestructureerde teksten. Aan de hand van de wensen van de gebruiker zal zo’n programma op interactieve wijze het gewenste perspectief op reeksen gebeurtenissen kunnen tonen. Dit biedt in potentie een breed scala aan mogelijke toepassingen: van procesreconstructies voor parlementaire enquêtes, tot de versnelde beantwoording van Woo-verzoeken.
Als duale PhD-kandidaat bij het Nationaal Archief en de Universiteit Utrecht heb ik het afgelopen jaar onderzoek gedaan naar tijdlijnen. Hieruit blijkt dat tijdlijnen in veel wetenschappelijke deelgebieden voorkomen, van de archeologie tot de digitale forensische wetenschappen. Specifiek ben ik geïnteresseerd in de rol die tijdlijnen momenteel spelen in de Nederlandse overheid, en hoe ze breder kunnen worden ingezet om overheidsprocessen sneller of efficiënter te laten verlopen. Een belangrijk voorbeeld van een proces waarin tijdlijnen momenteel door overheidsmedewerkers handmatig worden gemaakt, is de parlementaire enquête. Raadsadviseurs gebruiken ze bijvoorbeeld om ministers bij te staan tijdens de verhoren. Daarnaast vergelijken coördinatoren van enquêtes de tijdlijnen die door verschillende ministeries zijn aangeleverd, om hun perspectieven op de zaak te analyseren. Deze groepen mensen heb ik voor het onderzoek1 geïnterviewd. Op deze manier kon een scherper beeld verkregen worden van hun werkwijzen.
Werkwijze
Onderzoekers die werken aan parlementaire enquêtes wenden zich in toenemende mate tot software om de informatiestromen het hoofd te bieden. Het zijn in het bijzonder de E-discovery pakketten2 die parlementaire enquêtecommissies mogelijk maken om automatisch verbanden te leggen tussen teksten. Een belangrijk onderdeel van de analyse in parlementaire enquêtes is het maken en analyseren van tijdlijnen. Deze tijdlijnen worden vaak opgevraagd bij betrokken ministeries en andere overheidsorganisaties, zodat duidelijk wordt wat hun perspectief is (geweest) op een belangwekkende of gevoelige casus. De onderzoekers van die ministeries stellen momenteel in de regel tijdlijnen met de hand op. Ze lezen aanzienlijke hoeveelheden e-mails, beleidsdocumenten, agendastukken en memo’s om een zo accuraat mogelijk beeld te krijgen van hetgeen zich heeft afgespeeld. Daar maken ze een veelomvattende chronologie van die alle gebeurtenissen omvat. Vervolgens destilleren ze daar de belangrijkste gebeurtenissen uit, en destilleren ze die tot kleinere tijdlijnen die specifieker gericht zijn op bepaalde aspecten van een zaak. Die monden uiteindelijk uit in de tijdlijnen en factsheets3 waar de enquêtecommissie naar heeft gevraagd.
Software voor nieuwe generatie
Dit alles is enorm arbeidsintensief werk. Het vereist veel zitvlees van de onderzoekers, een scherp oog voor detail, en een fijnzinnig gevoel om adequaat in te schatten wat al dan niet relevant is voor de onderzoeksopdracht. Tijdlijnsoftware die automatisch tijdlijnen genereert op basis van een verzameling tekstdocumenten kan deze in potentie veel tijd besparen. Voorwaarde is wel dat de software gebruiksvriendelijk is, grote hoeveelheden tekstuele informatie gemakkelijk kan verwerken, verschillende bestandstypen aankan, en in voldoende mate de flexibiliteit biedt om de gegenereerde tijdlijnen op interactieve wijze aan te passen naargelang de wensen van een veelvoud van gebruikers in verschillende situaties. Bovendien dient de tijdlijnsoftware niet uitsluitend simpele, lineaire tijdlijnen te laten zien. Dergelijke tijdlijnen zijn weliswaar bruikbaar wanneer weinig documenten gemoeid zijn bij de analyse, en een beperkt aantal geëxtraheerde gebeurtenissen op betrekkelijk eenvoudige wijze zich tot elkaar verhouden. Bruikbaarder is om tijdlijnen in grafische vorm te tonen. Dit biedt gebruikers de mogelijkheid om op intuïtieve wijze de gebeurtenissen en hun onderlinge relaties te interpreteren, en helder inzicht te verschaffen in de documenten die eraan ten grondslag liggen. De verschillende soorten relaties bieden analisten bovendien de mogelijkheid om verscheidene aspecten van en perspectieven op de geschiedenis te ontwaren.
’BIJ VOORINZAGE MOET EEN JOURNALIST HANDMATIG OF MET EEN SOBERE INTERFACE DOOR DOCUMENTEN SPITTEN’
Van tijdlijnen naar TimeFlows
We hebben deze software niet ontwikkeld, maar doen we een eerste aanzet tot de conceptualisatie van de benodigde elementen van een dergelijke tijdlijn. Deze conceptualisatie is hoofdzakelijk ingegeven door de antwoorden die de geïnterviewde onderzoekers hebben gegeven. We hebben ze bevraagd naar de relaties die zij het belangrijkst achten voor hun werk. Uit de antwoorden blijkt dat de onderzoekers vooral waarde hechten aan relaties tussen documenten op basis van tijdsvolgordelijkheid (temporele relatie), thema (onderwerpsrelatie), en namen van actoren, plaatsen en organisaties (entiteitsrelatie). Ook relaties op basis van berichtenverkeer (correspondentierelatie) en gebeurtenissen die elkaar veroorzaakten (causaliteitsrelatie) werden van belang geacht. De relaties worden gelegd aan de hand van verschillende concepten die terugkomen in de teksten. Denk aan specifieke entiteiten (organisaties en mensen), gebeurtenissen, temporele expressies (bijvoorbeeld: overmorgen of vrijdag 15.00) en onderwerpen die in de teksten voorkomen. Samen vormen de concepten en de relaties een geïntegreerd geheel die we TimeFlows hebben genoemd. Het is een grafische structuur die zich wellicht het best laat uitleggen door middel van een visualisatie. We hebben gekozen voor een visualisatie van de toeslagenaffaire. De grijze rechthoeken representeren documenten… Deze bestaan in dit geval allemaal echt. De witte rechthoeken met zachte randen tonen de gebeurtenissen die afgeleid kunnen worden uit deze tekstdocumenten, en zijn genummerd op basis van hun tijdsvolgorde. De afbeelding geeft een idee van hoe de interactieve TimeFlows-software er in de toekomst uit zou kunnen komen te zien. De witte rechthoeken zijn de gebeurtenissen (events) en de grijze rechthoeken geven de onderliggende documenten aan. De verschillende relaties geven weer hoe deze gebeurtenissen en documenten zich onderling tot elkaar verhouden. Hier zouden onderzoekers tijdens parlementaire enquêtes goed gebruik van kunnen maken. Maar er zijn twee andere doelgroepen die in dit kader onderbelicht blijven: journalisten en Woo-ambtenaren.
Een TimeFlow van de toeslagenaffaire. Bron: Afbeelding uit het onderzoeksartikel TimeFlows: Visualizing Process Chronologies from Vast Collections of Heterogeneous Information Objects (pagina 11).4
TimeFlow voor de Woo
De Wet open overheid heeft een nieuwe clausule die het mogelijk maakt om journalisten en burgers inzage te geven in de documenten die tot dan toe verzameld zijn door Woo-ambtenaren. Dit is de vertrouwelijke voorinzage. Tijdens deze vertrouwelijke voorinzage kunnen journalisten beoordelen in hoeverre de tot dan toe verzamelde documenten relevant zijn voor hun verzoek. Het is mogelijk dat er voor grote verzoeken duizenden documenten zijn verzameld. Wanneer de journalist langskomt voor de voorinzage, moet die momenteel meestal ofwel handmatig, ofwel door middel van een sobere interface door al deze documenten spitten. Soms zijn ze uitsluitend voorzien van een weinig descriptieve titel. Dit maakt het voor hen lastig om de relevantie te staven. Dat is zonde, want een scherpe afbakening van de documentenverzameling kan zowel ambtenaren als journalisten veel tijd besparen. Hoe minder informatieobjecten worden opgevraagd, hoe minder teksten hoeven te worden beoordeeld en gelakt door de Woo-juristen. Het is dan ook wenselijk dat de vertrouwelijke voorinzage een aanlokkelijk perspectief is voor journalisten, en dat het hen zo gemakkelijk mogelijk wordt gemaakt om de documentselectie in te perken. In mijn ogen kunnen tijdlijnen in het algemeen, en TimeFlows in het bijzonder, hier een belangrijke rol in spelen. Ze tonen alle beschikbare documenten op een manier die het verloop van de gebeurtenissen – zoals beschreven in die documenten – snel en helder inzichtelijk maakt. Omdat de gebeurtenissen een soort samenvattingen vormen van deelverzamelingen van documenten, kunnen ook grote hoeveelheden documenten inzichtelijk worden gemaakt – zonder dat ze allemaal tegelijkertijd worden getoond. Idealiter kan men in de toekomst ook inzoomen op die gebeurtenissen, zodat ze op verschillende detailniveaus kunnen worden geïnspecteerd. Bovendien wordt onmiddellijk duidelijk hoe de documenten zich tot die gebeurtenissen verhouden. Dit maakt het voor de journalist mogelijk om snel de documenten te selecteren die voor hem of haar het meest relevant zijn. De indiener van het Woo-verzoek doorloopt de grafisch vormgegeven TimeFlow van de documenten, krijgt inzicht in de verschillende perspectieven op de gebeurtenissen door met de interactieve interface om te gaan, en kan met behulp van de cursor de gewenste documenten aanklikken.
‘EEN SCHERPE AFBAKENING VAN DE DOCUMENTENVERZAMELING KAN VEEL TIJD BESPAREN’
Woogle Maps van Team Epoch
Een eerste aanzet voor een dergelijk TimeFlows-programma is kortgeleden gedaan door het Epoch-team van de TU Delft. Onder mijn begeleiding hebben deze informaticastudenten in de DreamHall gewerkt aan een open-source versie van zo’n algoritme. Hun algoritme heet Woogle Maps5. Ze hebben dit in 8 weken in elkaar gezet, en hebben hiermee in mijn ogen goed werk geleverd. Hun programma betreft een uitbreiding van een bestaand algoritme van de Chileense onderzoeker Brian Keith Norambuena6, dat ik tijdens mijn onderzoek tegen het lijf liep. Woogle Maps is op dit moment nog een minimum viable product. Het biedt een geweldige eerste aanzet, maar er is in mijn ogen nog veel meer onderzoek nodig naar dit soort algoritmes. Het dient nog te worden uitgebreid met meerde interactieve elementen die het gebruikers mogelijk maakt om zo efficiënt mogelijk de informatie te vinden die ze zoeken. Het incorporeren van relaties tussen documenten en gebeurtenissen op basis van entiteiten (personen of namen van organisaties) zou voorts een waardevolle toevoeging zijn. Daarnaast speelt de snelheid van het algoritme een rol van betekenis wanneer grote hoeveelheden tekstdocumenten (duizenden) als input dienen.
Wie pakt de regie?
Naast onderzoek voor parlementaire enquêtes en de vergemakkelijking van de vertrouwelijke voorinzage hebben zowel TimeFlows als het Woogle Maps algoritme vele mogelijke toepassingen. Zo zouden ze ook ingezet kunnen worden om de parafaseringslijn in de beantwoording van Woo-verzoeken te stroomlijnen, of het lakproces te versoepelen. Ook voorzie ik dat men deze technieken kan gebruiken bij historisch, forensisch, archiefwetenschappelijk en juridisch onderzoek. Ik moedig het daarom aan dat een breed palet aan overheidsorganisaties hier onderzoek naar gaat doen, in samenwerking met (onderzoeks)-journalisten. Zo kan men uitzoeken hoe TimeFlows het best kunnen worden ontwikkeld, vormgegeven en ingezet om voor de Woo tijd te besparen met tijdlijnen. Hierbij is het cruciaal om de wensen van de journalisten zeer serieus te nemen, omdat ze als sleutelgebruiker fungeren tijdens de vertrouwelijke voorinzage. Alleen door ontvankelijk te zijn voor hun wensen en aanbevelingen, kunnen door de overheid ingezette tijdlijnalgoritmes in de toekomst op brede steun rekenen vanuit de samenleving. Dit alles vereist dat een of meerdere overheidsorganisaties de regie op zich gaan nemen. Precies daar maak ik me weleens zorgen om. Wie gaat dit oppakken? Welke organisatie gaat hier beleid voor vormen? Bij (al dan niet voorlopig) gebrek aan een ministerie voor Digitale Zaken is er niet een partij die vanzelfsprekenderwijs de leiding neemt. Zonder een gerichte aanpak loopt men het risico dat deze in potentie waardevolle technologische ontwikkeling niet ingebed wordt in de werkprocessen van de overheid, waardoor het strandt. Dat zou zonde zijn. Ik doe daarom een oproep aan alle relevante overheidsorganisaties: maak hier serieus werk van.
- Dit onderzoek is kortgeleden geaccepteerd voor publicatie tijdens de wetenschappelijke conferentie “Research Challenges in Information Science 2024”. Een preprint van het artikel kunt u hier lezen: https://arxiv.org/abs/2404.16051.
- Denk aan ZyLAB (van Reveal Data) en INDICA.
- Dit zijn documenten waarin een reeks belangrijke feiten en gebeurtenissen op een meer uitgebreide, prozaïsche manier worden beschreven dan in een tijdlijn. Het tijdsaspect kan een belangrijke rol spelen, maar dat is niet strikt noodzakelijk.
- Dit onderzoek is kortgeleden geaccepteerd voor publicatie tijdens de wetenschappelijke conferentie “Research Challenges in Information Science 2024”. Een preprint van het artikel kunt u hier lezen: https://arxiv.org/abs/2404.16051.
- Link naar de Github-pagina van het algoritme van Epoch: https://github.com/TeamEpochGithub/woogle-maps.
- Link naar de Github-pagina van het Narrative Maps algoritme van Brian Keith Norambuena: https://github.com/briankeithn/narrative-maps.