Enkelvoudige opslag, meervoudig gebruik in CDD+
Tekst Emile de Maat
Emile de Maat is expert informatiehuishouding bij de Justitiële Informatiedienst
Enkelvoudige opslag, meervoudig gebruik… Het is niet het grootste voordeel dat een eDepot kan opleveren, maar het leidt toch weer tot een extra besparing. En er kleven geen nadelen aan.
Het Centraal Digitaal Depot (CDD+) is het eDepot voor het ministerie van Justitie en Veiligheid: de plek voor het digitaal archief voor alle organisatieonderdelen van dat ministerie. Dit eDepot heeft een eigenschap die je bij weinig andere archiefsystemen terugziet (toegegeven, deels omdat het niet altijd nodig is): enkelvoudige opslag, meervoudig gebruik. Dit houdt in dat een bestand dat op meerdere plekken voorkomt, in het CDD+ niet meerdere keren hoeft te worden opgeslagen. Dit geldt voor situaties waarin een bestand binnen een organisatie meerdere keren voorkomt (bijvoorbeeld in een origineel dossier en bij een bezwaar), of wanneer een bestand bij meerdere organisaties voorkomt (bijvoorbeeld bij een brief die van de ene organisatie naar een andere organisatie is verstuurd.1 In het CDD+ wordt zo’n bestand een keer opgeslagen en gerelateerd aan meerdere dossiers.
Zelfde bestand, andere context
Hetzelfde bestand, ongeacht de vorm, kan dus voorkomen in meerdere archieven. Maar ondanks dat de inhoud hetzelfde is, is het toch niet helemaal hetzelfde ding. In het ene archief is het bestand “het besluit dat wij genomen hebben en hebben doorgestuurd aan onze partner”, in het andere archief is het “de brief die wij hebben ontvangen”. Het bestand is onderdeel van een ander proces, met een andere herkomst, betekenis en doel. Simpel gezegd: de context is anders.
Meerdere sets
Deze context is voor een archief van groot belang. Het maakt duidelijk waarom een organisatie de informatie heeft, helpt bij het terugvinden van die informatie, en maakt het mogelijk te bepalen wanneer de informatie vernietigd moet worden, of moet worden overgebracht naar het Nationaal Archief. De context wordt opgeslagen in de vorm van metagegevens bij het bestand. De metagegevens worden vastgesteld in het primair proces, en vervolgens samen met het bestand aangeleverd aan het CDD+. In het CDD+ wordt deze context dus ook bijgehouden, maar aangezien er sprake kan zijn van meerdere contexten, worden er dus potentieel meerdere sets van metadata bijgehouden. Een archiefobject bestaat vervolgens uit een bestand (doorgaans aangeduid als informatieobject) en de bijbehorende metadata. Het informatieobject is aanwezig in meerdere archieven, de metadata is uniek per archief. Dit noemen we het vlindermodel (zie afbeelding bovenaan). De verschillende archieven hebben dus toegang tot hetzelfde informatieobject. Maar ze hebben geen toegang tot elkaars metadata.
Enkelvoudige opslag
en nuancering is wel zijn plaats. Enkelvoudige opslag betekent niet dat het CDD+ slechts een kopie van zo’n informatieobject heeft. Het CDD+ is redundant uitgevoerd; er zijn twee identieke depots, en dus ook twee informatieobjecten. Daarnaast zijn er natuurlijk de nodige back-ups om verlies van informatie tegen te gaan, dus dat zijn nog een aantal kopieën. Ten slotte bewaart het CDD+ soms ook verschillende verschijningsvormen van een informatieobject, om de duurzame toegankelijkheid van de informatie te borgen. Van een informatieobject dat in Word-formaat is aangeleverd, wordt bijvoorbeeld ook een pdf-/A-versie gemaakt en bewaard. Het principe van enkelvoudige opslag, meervoudig gebruik betekent in werkelijkheid dus niet dat het informatieobject maar een keer wordt bewaard, maar dat er maar een zo’n set van oorspronkelijk informatieobject, duplicaat, alternatieve verschijningsvormen, en back-ups wordt gecreëerd en bewaard. Dit geeft ook aan dat de voordelen van enkelvoudige opslag groter zijn dan het in eerste instantie lijkt. Per informatieobject dat we op deze manier “enkelvoudig” opslaan, vermijden we niet een dubbeling, maar meerdere dubbelingen en bijbehorende beheershandelingen.
‘HETZELFDE BESTAND KAN, ONGEACHT DE VORM, VOORKOMEN IN MEERDERE ARCHIEVEN’
Het gaat niet vanzelf
Het toepassen van het vlindermodel is altijd een bewuste keuze van de archiefvormer. Het vlindermodel wordt alleen toegepast als een archiefvormer expliciet aangeeft dat hij een informatieobject dat in een ander archief is opgeslagen, wil opnemen in het eigen archief. Hiervoor is nodig dat die archiefvormer een verwijzing heeft naar het bestaande archiefobject, en dat die archiefvormer is geautoriseerd (door de andere archiefvormer) om dit bestaande object in te zien. De nieuwe archiefvormer kan dan een nieuw archiefobject aanmaken in het CDD+ door een nieuwe context (dus: een nieuwe set metagegevens) aan te maken en daarbij de verwijzing naar het bestaande archiefobject mee te geven. Overigens ondersteunt het CDD+ op deze manier ook het uitwisselen van informatie zonder het verplaatsen of kopiëren van de informatieobjecten. Een organisatie kan een andere organisatie autoriseren een archiefobject in te zien, en vervolgens de verwijzing doorsturen in plaats van het complete informatieobject. De nieuwe archiefvormer kan er ook voor kiezen het informatieobject nogmaals aan te leveren aan het CDD+, nadat het is gedownload uit het CDD+ of nadat hij het op een andere manier heeft verkregen. Als hij dat doet, dan wordt dus het vlindermodel niet toegepast, en is er geen sprake van enkelvoudige opslag. Heeft het toepassen van het vlindermodel verder nog belangrijke consequenties voor de archiefvormers? Het antwoord daarop is: nee, alles werkt hetzelfde als in een situatie waarin een informatieobject meerdere keren is opgeslagen.
Bij de bron
Het model voor enkelvoudige opslag, meervoudig gebruik dat door het CDD+ wordt gehanteerd, heeft overlap met andere ideeën. Een van de varianten is om de informatie niet in een centraal eDepot op te slaan, maar bij die organisatie te laten die het informatieobject heeft gecreëerd, of als eerste heeft ontvangen. Andere organisaties die recht hebben op die informatie kunnen dan steeds bij die eerste organisatie aankloppen om de informatie in te zien. Op die manier wordt er ook voorkomen dat hetzelfde informatieobject op meerdere plekken wordt opgeslagen. Deze methode heeft duidelijke nadelen. Als er geen centrale voorziening wordt gebruikt, dan moeten alle functionaliteiten voor het archiveren op meerdere plekken worden ingericht en onderhouden. Daarbij wordt het ook lastig een uniform beleid te hanteren. Maar belangrijker is dat organisaties voor hun archief (en de daarop gebaseerde verantwoording) afhankelijk worden van andere organisaties, en juist die organisaties waarmee wordt samengewerkt en informatie wordt uitgewisseld. Anderzijds worden organisaties ook verantwoordelijk voor het beheer van archiefstukken van andere organisaties, waarbij het kan voorkomen dat een organisatie (ten behoeve van een ander) nog het beheer heeft over een informatieobject dat het zelf al vernietigd heeft.2 Een aanvullend argument dat wordt gebruikt voor het halen van informatie bij de organisatie waar die informatie is ontstaan, is dat er daarmee ook voor gezorgd kan worden dat er altijd gewerkt wordt met actuele informatie. De informatie in het eigen archief kan immers alweer verouderd zijn. Hier worden twee zaken door elkaar gehaald. Het is vaak van belang om over actuele informatie te beschikken, maar voor reconstructie is het ook nodig om te weten wat er in het verleden bekend was. De informatieobjecten zullen dus gearchiveerd moeten worden en vervolgens zal per handeling moeten worden bepaald of er gewerkt moet worden met de informatie in het eigen archief, of dat er actuele informatie moet worden opgehaald, die vervolgens ook zal moeten worden gearchiveerd.
- Voor de eenvoud ga ik er in de rest van dit artikel vanuit dat we het hebben over een bestand dat voorkomt in verschillende archieven van verschillende organisaties. Hetzelfde principe kan ook worden toegepast als het bestand voorkomt in verschillende archieven van dezelfde organisatie, of zelfs verschillende dossiers in hetzelfde archief.
- Bij het gebruik van een centraal eDepot is een organisatie ook afhankelijk van een andere organisatie voor het beheer van die archiefvoorziening; in het geval van CDD+ is dat de Justitiële Informatiedienst. Er is echter wel een verschil, aangezien de Justitiële Informatiedienst hier alleen optreedt als beheerder van de archiefvoorziening, en niet als deelnemer in het primair proces.