Bevaring av 1,6 millioner timer fjernsyn

Bevaring av 1,6 millioner timer fjernsyn

Nasjonalbiblioteket har nylig gjennomført et av sine største digitale bevaringsprosjekter noensinne: å flytte hele arkivet med historiske digitale fjernsynssendinger over til en ny bevaringsløsning. Over 1,6 millioner timer fjernsyn, fordelt på like mange filer, ble analysert, kvalitetssikret og pakket på nytt – i alt 1.800 terabyte data.

Dette er historien om hvordan vi gjorde det.

Bakgrunn: En time, en fil

Siden 2007 har norske kringkastere levert fjernsynssendinger til Nasjonalbiblioteket digitalt – én MP4-fil per kalendertime TV-sending. Hver fil inneholder altså det som ble sendt i løpet av én time, uavhengig av hvor programmer starter eller slutter. I praksis betyr det at et TV-program kan være spredt over flere filer.

Filene har blitt lagret i et eldre bit-repositorium (Oracle HSM) i tre kopier. Nå skulle hele dette digitale materialet rearkiveres inn i et moderne bevaringssystem – en prosess som stilte nye krav til kvalitet, metadata og pakking.

Utfordringer og beslutninger

Sjekksummer for alle filer
Noen kringkastere, som TV2 og TVNorge, leverte filer med sjekksummer1 – en digital signatur som bekrefter at filen ikke har endret seg. Men filer fra andre kringkastere manglet dette, og vi måtte derfor generere egne sjekksummer for disse.

🔠 Standardisering av filnavn
Filnavnene inneholder viktig informasjon – kringkaster, kanal, dato og klokkeslett – men mange fulgte ikke standardformatet. Enkelte manglet sendetidspunkt, andre hadde kanalnavnet feilplassert. Før automatisert behandling kunne starte, måtte tusenvis av filnavn rettes.

🔧 Tekniske kontroller
Hver fil ble analysert med verktøyene MediaInfo2 og MediaConch3 for å validere formatet. Vi sjekket at filene hadde både lyd og bilde, korrekt varighet, og ikke var trunkert eller tomme.

📄 Metadata og MODS
Siden ingen av filene hadde katalogdata, genererte vi MODS4-metadata for hver enkelt. Informasjon fra filnavnet ble hentet ut og kombinert med tekniske metadata fra analyseverktøyene.

✏️ Kanalnavn - fra kortform til fullform
I de opprinnelige filnavnene ble kun forkortede kanalnavn brukt, som “BLI” for “TV2 BLISS”. Dette ble konvertert til fullstendige kanalnavn i metadataene for å sikre forståelighet over tid.

📦 Pakking i E-ARK-format
Alle filer ble pakket i henhold til E-ARK-standarden5, som er en europeisk standard for langtidsbevaring. Vi brukte open source-verktøyet Commons-ip til både pakking og validering.

📝 Bevaringsaktiviteter dokumentert med PREMIS
Endringer, avvik og teknisk tilstand ble dokumentert med PREMIS6-metadata, slik at all behandling i rearkiveringsprosessen er etterprøvbar i ettertid.

Teknisk løsning og fremdrift

Arbeidet startet høsten 2024 med kartlegging og forberedelser. Selve rearkiveringen startet i november 2024 og ble avsluttet 4. februar 2025. Prosessen ble automatisert ved hjelp av Apache NiFi7, som styrte databehandlingen med høy kontroll på flyt og kapasitet.

Ved å kombinere automatisering med målrettede manuelle vurderinger, økte vi effektiviteten betraktelig. Daglig behandlingskapasitet gikk fra 25 til over 40 terabyte.

Rearkivering pr dag i TeraByte
Oversikt over datavolum rearkivert pr dag. 1 TeraByte = 1.000 GigaByte

Funn og avvik

I et så stort datasett er det uunngåelig med avvik. Her er noen eksempler på hva vi fant blant 1,6 millioner filer:

  • Duplikater: Noen skyldtes klokkestilling mellom sommer- og vintertid, andre var identiske sendinger fra ulike NRK-distrikter. Filene ble vurdert og de beste versjonene beholdt.

  • Feil sjekksummer: Flere filer hadde feil sjekksum ved mottak. Undersøkelser viste at alle kopier var identiske – feilen oppsto altså før arkivering. Vi oppdaterte sjekksummene og dokumenterte avviket.

  • Tomme filer: Rundt 30 filer hadde null innhold. I tilfeller hvor originalen kunne hentes på nytt, gjorde vi det. Ellers ble filene dokumentert som tomme med tilhørende metadata.

  • Ukjente filtyper: Noen MP4-filer hadde feil signatur og ble ikke gjenkjent av filidentifiseringsverktøy. Noen viste seg å være QuickTime-filer i feil container. Disse ble også dokumentert.

  • Trunkerte filer: Enkelte filer var teknisk avkortet og inneholdt bare deler av innholdet. Disse ble bevart med informasjon om avviket.

Hva vi lærte

Dette prosjektet demonstrerte hvor viktig det er å ha robuste verktøy, standarder og kontrollrutiner når store datamengder skal langtidsbevares. Det viste også hvor viktig det er å kunne kombinere automatikk med faglig skjønn.

Ved å bruke Apache NiFi for datastrøm og E-ARK for arkivpakkene, fikk vi en skalerbar løsning som også kan brukes i fremtidige bevaringsprosjekter.

Til slutt

Fjernsyn er en sentral del av vår felles hukommelse. Ved å sikre og strukturere dette materialet for framtiden, legger vi til rette for at fremtidens forskere, journalister og publikum kan forstå hvordan Norge har utviklet seg – time for time.

Sist oppdatert - Github commit history ↗