Debatt ● Jørgen Berge
Datahåndtering sett i lys av data
Hvem har ikke opplevd å stå foran en regnskog av potensielle plattformer for lagring av og søk etter data, men ikke helt klart å finne ut av hva som fungerer eller passer til mine behov?
Denne teksten er et debattinnlegg. Innholdet i teksten uttrykker forfatterens egen mening.
De senere år har fokuset på data, datahåndtering og tilgjengelighet av data vært økende. Planer for hvordan data skal håndteres og tilgjengeliggjøres har blitt obligatoriske for å få tilkjent prosjekter fra Norges forskningsråd, og fra 2021 er det i tråd med Plan S krav om åpen publisering av alle resultater fra offentlig finansiert forskning. Det stilles også stadig tydeligere krav fra finansieringskilder om at alle data skal være FAIR (Findable, Accessible, Interoperable og Reusable).
Man skulle i så måte tro at vi som en aktiv forskningsnasjon nå har god kontroll på dette.
Selv om jeg til daglig er dekan på et fakultet ved UiT, har jeg bakgrunn som marinbiolog. Jeg skriver nok her først og fremst som en marinbiolog, men må nok også erkjenne at mitt syn på verden og forskningssystemet nok også er farget av et dekan-fokus. I så måte burde jeg også legge til at mitt verdensbilde dermed ikke helt innbefatter status i den statlige instituttsektoren der institusjonene har mandatfestede operasjonelle dataleveranser.
Utfordringen knyttet til data og dataleveranser er større på et universitet som har en langt større bredde i sine datatyper, og hvor det ikke eksisterer noe mandat for å operasjonalisere data til tjenester. Dermed eksisterer det heller ikke økonomiske / mandatbaserte insentiver for å prioritere ressurser på institusjonsnivå, og avstanden mellom forsker og systemansvarlige har en tendens til å bli svært lang.
I 2022 la Ruud-utvalget frem en rapport om organisering og finansiering av datainfrastruktur for best mulig utnyttelse. Ordet «gjenbruk» stod sentralt i rapporten som vektla både fysisk datainfrastruktur og kompetanse som kjerneområder for å sikre at data i fremtiden skal være gjenfinnbare, tilgjengelige og kompatible (FAIR). I de to siste rundene av Forskningsrådets infrastrukturutlysninger har det også blitt omsøkt betydelige summer for oppbygging av nettopp infrastruktur, mens kompetanse kanskje har fått litt mindre fokus.
Dette tror jeg er gjeldende ikke bare nasjonalt og gjennom forskningsrådets utlysninger, men også lokalt og internt på de enkelte institusjonene. Min egen inkludert.
Vi vet [dataene] er der, men vi kan ikke beskrive dem, hvordan de ser ut eller hvordan de fungerer.
Jørgen Berge
Hvem har ikke opplevd å stå foran en regnskog av potensielle plattformer for lagring av og søk etter data, men ikke helt klart å finne ut av hva som fungerer eller passer til mine behov? Jeg bruker regnskogen her som et bevist bilde på datahåndtering, både på grunn av den biodiversiteten (mangfold av arter) vi finner der og fordi den antas å inneholde et meget stort antall ukjent arter — vi vet de er der, men vi kan ikke beskrive dem, hvordan de ser ut eller hvordan de fungerer.
Det finnes fungerende løsninger for automatisk generering av datahåndteringsplaner som man kan få godkjent av f.eks. NFR som skulle være til hjelp her, men i stor grad oppleves disse som en flod av ord som ikke umiddelbart gir mye mening. I tillegg kommer en stadig økende utfordring knyttet til sensitivitet og sikkerhet, som ofte kommer i direkte konkurranse med åpen tilgjengelighet og behov for kunnskap knyttet til en kunnskapsbasert forvaltning av ressurser.
Lagring og tilgjengeliggjøring av data må også sees i sammenheng med klima og klimaendringer, der behov for lange tidsserier og kunnskap om systemer i endring vil bli stadig viktigere.
Marin forskning har i mange sammenhenger blitt fremhevet som et veldig data-sultent fagområde, der nye prosjekter i veldig stor grad inkluderer store og sentrale komponenter for å sikre mer og nye data. Dette er sikkert både naturlig og riktig, da en av de store utfordringene vi som marine forskere står ovenfor er ekstrapolering data i tid og rom. Omtrent 99 prosent av planetens tredimensjonale leveområder er i havet, og vi må svært ofte gjøre antagelser om mer eller mindre allmenngyldige sammenhenger ut ifra data samlet inn i et ganske trangt tid-og-rom perspektiv.
Det er dermed også av ekstra stor viktighet at nettopp marine data gjøres tilgjengelig. Ikke bare i teori, men også i realiteten. Utfordringen tror jeg i veldig stor grad er å finne i manglende kompetanse og innsikt i de forskjellige stegene data gjennomgår fra de måles eller samles inn og frem til de kan gjenbrukes av en forsker et eller annet sted i verden.
En forsker skriver, koordinerer og får av og til også finansiert en prosjektsøknad. I denne søknaden er det beskrevet hvordan data skal samles eller genereres, og det er forskeren som nødvendigvis er den som sitter på innsikten i hvordan det burde gjøres. I mange tilfeller er det en forskningstekniker som sitter på innsikten i hvordan det faktisk ble gjort. Når det kommer til kvalitetssikring og kalibrering at data er det nok i mange tilfeller en kombinasjon av en forsker og en tekniker som har den beste innsikten, mens analyse i all hovedsak tilfaller forskeren å gjennomføre.
Men så begynner det ofte å bli komplisert. Bearbeiding av datafiler og metadata, lagring av datafiler i dertil egnet infrastruktur og på riktig format er noe jeg tror mange i min generasjon finner svært utfordrende. De fleste større institusjoner har egne fellestjenester med svært kompetente medarbeidere innen IT og e-infrastruktur som snakker flytende binær eller Python, og som skal ta hånd om dette. Men de vet i liten grad noe om hva dataene er, hvordan de best presenteres eller hvilke dataportaler de bør være lesbare, for slik at andre forskere innen samme eller tilstøtende fagfelt kan finne og laste disse ned til eget bruk.
Men verken forskeren eller den IT-ansatte har et fokus på dataene. Og det er her det i stor grad går galt i de flest praktiske tilfellene.
Jørgen Berge
Forskeren har en egeninteresse av at dataene både publiseres og brukes, da dette er noe som i økende grad er meritterende for egen CV-bygging. Det samme gjelder i liten grad de IT-ansatte som jobber i fellestjenestene. Publisering av data ligger derfor ofte i hendene til forskeren.
Men verken forskeren eller den IT-ansatte har et fokus på dataene. Og det er her det i stor grad går galt i de flest praktiske tilfellene. Jeg tror også det er et poeng at «data» er et ord for en svært heterogen samling av informasjon, og der de ulike typene ofte krever ulik håndtering.
Vi mangler i all hovedsak data-røktere som kan holde et fokus på data fra innsamling til publisering. Data-røktere som kan sette data i sentrum og sørge for løsninger som er tilpasset dataenes egenart og sikre at de i størst mulig grad kan gjenbrukes.
Samtidig er hele sektoren i ferd med å innse at vi har en utfordrende tid i vente når det kommer til økonomi og økonomisk handlingsrom. For å ikke stille andre i et dårlig lys, så skal jeg bruke mitt eget fakultet som eksempel — i 2021 måtte vi se i øynene at vi frem mot 2027 gikk mot et samlet merforbruk på nær 100 millioner kroner. Dette har vi klart å snu, men handlingsrommet vil være marginalt i overskuelig fremtid. Vi vet vi har et ansvar, vi ser hvor behovet er, men vi opererer innenfor et nasjonalt system som i altfor liten grad gir rom for å gjøre noe med det. Dette fratar ikke institusjoner og ledere (som meg selv) ansvar, men jeg antar at utfordringen er omtrent den samme i sektoren og det er dermed et behov for felles nasjonale løsninger.
Ett steg i den retningen vil helt åpenbart være at vi prøver å hugge ned «regnskogen», og sørge for et mer oversiktlig landskap både lokalt og nasjonalt. Et annet steg vil kunne være at alle prosjekter finansiert av offentlige kilder har et automatisk og obligatorisk tillegg som finansierer data-røktere. Vi som forskere må og er innforstått med at vi skal forholde oss til Plan S, men vi mangler gode systemer for å gjøre dette og det ingen som i utgangspunktet kan se for seg å ta regningen.
Utfordringer i forhold til kompetanse vil nok helt sikkert bedres når min generasjon pensjoneres og en ny og mer «binær» generasjon forskningsledere overtar våre posisjoner, men jeg vil nok hevde at vi ikke har tid til å vente så lenge. Vi må rette søkelys mot dette allerede nå!