Geluid van Groningen

Of hoe we AI inzetten om de audiocollectie te ontsluiten

Tekst René Duursma

René Duursma is coördinator beeld & geluid bij Groninger Archieven

Het Groninger geluid vertelt verhalen van mensen, plekken en gebeurtenissen die anders gemakkelijk verloren zouden gaan. Met behulp van AI krijgt de audiocollectie van de Groninger Archieven een nieuwe kans om gehoord en gedeeld te worden. Wat ooit moeilijk doorzoekbaar en verborgen bleef, wordt nu stap voor stap toegankelijk voor iedereen.

De audiocollectie van de Groninger Archieven werd tot voor kort maar mondjesmaat ontsloten. Het is nu eenmaal gemakkelijker en minder tijdrovend om snel door een gedigitaliseerd bestand van een film of video te scrollen en zo snel tot de conclusie te komen wat er op staat. Net als bij veel andere archieven realiseerden we ons wel dat het een waardevolle collectie was, maar door gebrek aan tijd bleef het verwerken van audio een ondergeschoven kindje. We hebben al sinds 2006 een grote gedigitaliseerde audiocollectie van Radio Noord, een zender die al vanaf 1946 radio maakt in het noorden van het land. Het gaat om duizenden uren materiaal waarvan slechts een summiere beschrijving is. De datum van uitzending was er, vaak ook de personen waarover het gaat, en iets minder vaak het onderwerp. De auteursrechten lagen overigens ook nog geheel bij RTV Noord, zoals de organisatie tegenwoordig heet. Het is een prachtige collectie, met een jonge Jan Mulder, die net terugkwam van een voetbalavontuur uit België, politici als Wallage en Remkes in hun Groningse politieke jaren en veel muziek, al dan niet in het Gronings. Ook de geluiden uit 1949 van de Groningse markt, straatinterviews uit een verdwenen Groningen, waar een zuster nog een pakketje mee kon geven aan de buschauffeur voor een dokter uit Warffum. De collectie bestaat voor een deel uit nieuws, maar voor een nog groter deel uit verhalen achter dat nieuws. Opvallend is dat wat we tegenwoordig podcasts, of deep journalism noemen, toen best gewoon was.

Inzet van AI

In 2022 en 2023 kreeg ik de kans om mee te doen aan Frame Expert en Frame Advanced, twee fantastische trainingsweken op internationaal niveau op het gebied van AV-archiveren en -publiceren. We kregen les van experts uit Polen, Spanje, Frankrijk, Nederland, Oostenrijk en Slowakije. Per keer was er een klas van 12 leerlingen van over de hele wereld, waar je je aan kon spiegelen, en met wie je allerlei interessante zaken kon uitwisselen. Wat mij opviel in die weken, was dat AI in 2022 nog ver weg leek maar dat de grote televisieomroepen van Europa er al jaren mee experimenteerden. ChatGPT werd pas eind november dat jaar gelanceerd. In 2006 was de TU Twente al bezig met speech-to-text, maar dat was verre van bruikbaar voor ons. Je moest eigenlijk een transcriptie aanleveren met je audio zodat het algoritme kon proberen de dictie van de spreker te herkennen. Dat hebben ze succesvol gedaan met een speech van koningin Wilhelmina, maar voor een klein archief als het onze was het te tijdrovend en kostbaar om daar iets mee te doen. Daarna hebben wij onze focus gelegd op het digitaliseren van onze collectie.

‘DE COLLECTIE BESTAAT DEELS UIT NIEUWS, MAAR VOORAL UIT VERHALEN’

Opnieuw enthousiast

Die ervaringen vormden de opmaat naar een belangrijk inzicht. In Parijs, bij INA (Institut national de l’audiovisuel) zag ik meerdere voorbeelden van Europese televisiearchieven die indrukwekkend waren. Vol inspiratie kwam ik thuis en begon te schrijven aan een projectplan, maar algauw bleek dat de kosten te hoog waren voor ons om een dergelijk platform dagelijks in gebruik te kunnen nemen. We zouden subsidie moeten aanvragen, misschien wel meer dan een ton. Deze trajecten duren helaas vrij lang, dus toen ik een jaar later weer een studieweek voltooide en zag hoe RTVE Archief, van de Spaanse televisie haar grenzen aan het verleggen was door samen te werken met een bedrijf dat gebruik maakte van het whisper-model van Open AI, werd ik weer enthousiast over de haalbaarheid van de inzet van AI voor onze doeleinden. Virginia Bazán-Gil liet samen met professor Francesc Tarrés zien hoe ze dergelijke AI algoritmes verbonden hadden met het archiefsysteem, om snel programma’s te ontsluiten. Menselijk controle blijft belangrijk, de instroom van nieuwe tv programma’s komt tegenwoordig al met uitgebreide metadata, maar speech-to-text zorgde voor doorzoekbaarheid op microniveau. Radioprogramma’s worden direct doorzoekbaar, en tv-programma’s, waarvan wij ook duizenden uren hebben van het lokale OOG TV, konden ondertiteld worden. Doorzoekbaar en toegankelijk voor doven en slechthorenden. Dit moest het zijn voor ons.

Overdraagbaar

Virginia bracht mij in contact met Francesc en we ontwikkelden samen een platform, los van ons contentbeheersysteem, waar met meerdere mensen tegelijk aan gewerkt zou kunnen worden. Ik wilde graag een platform waar met vrijwilligers samen aan de AV-collectie gewerkt zou kunnen worden. Zij hadden de techniek, wij de ideeën en de samenwerking verliep heel soepel. Al binnen drie maanden hadden we een betaalbaar platform, dat bovendien overdraagbaar was aan andere regionale archieven in Nederland. Vanuit mijn rol als voorzitter van NORAA (Nationaal Overleg regionale Audiovisuele Archieven) wilde ik niet alleen voor ons iets ontwikkelen, maar iets wat voor andere kleinere archieven ook beschikbaar is. De rol van vrijwilligers is overigens zeer belangrijk in dezen, want zij controleren en verbeteren de zaken die AI niet kan. Zij hebben vaak een beter begrip van uitdrukkingen, woorden en context en zijn dus onontbeerlijk voor een goed resultaat. AI helpt ons, maar zonder mensen zijn we lang niet zo goed als we willen zijn, moeten zijn.

‘AI HELPT ONS, MAAR ZONDER MENSEN KOMEN WE NERGENS’

Gedeelde geschiedenis

In de nabije toekomst gaan we het platform uitbreiden, NER (named entity recognition) toevoegen, gezichtsherkenning, het uitlezen van ingebrande ondertiteling, namen en andere teksten die in de video’s voorkomen met computer vision. Dankzij deze stappen halen we hoogwaardige techniek binnen, en kunnen we zo ons publiek beter bedienen dan ooit. Met een klein team en de hulp van vrijwilligers kunnen we jaarlijks honderden uren AV erfgoed beschikbaar maken. Met de inzet van AI en de betrokkenheid van vrijwilligers laten we zien dat ook kleinere archieven grootse stappen kunnen zetten. Het geluid van Groningen wordt niet alleen bewaard, maar ook opnieuw tot leven gebracht – als bron van herinnering, inspiratie en verbondenheid met onze gedeelde geschiedenis.

Deel dit artikel

Inhoud