Debatt ● Margrete Dyvik Cardona
Vi kan vi slå KI i dens eget spill
Det er snart slutt på at KI-modeller hallusinerer og presenterer falsk informasjon, skal en tro KI-eksperter. Vil vi da ikke lenger kunne skille mellom genuine studenttekster og KI-generert juks? Jeg er mer optimistisk.


Denne teksten er et debattinnlegg. Innholdet i teksten uttrykker forfatterens egen mening.
Vi som underviser dagens studenter, kjenner raskt igjen tekster som er generert av en chatbot. Det er noe med språket, det føles flatt og tomt. Men dette holder ikke som bevis hvis vi skal gripe noen i fusk, ifølge Oddveig Storstad, sensor ved lærerutdanningen ved NTNU.
I 2024 ble 116 studenter felt for KI-fusk. Det som gjorde at man klarte å gjennomskue det, var at kilder, nettsider og forfatternavn var oppdiktet, altså at chatboten hadde hallusinert.
Men ifølge Morten Goodwin, professor i kunstig intelligens ved Universitetet i Agder, er problemet med KI-hallusinering snart en saga blott. Språkmodellene blir så sofistikerte at vi ikke lenger vil kunne skille mellom genuine studenttekster og KI-generert juks.
Som lingvist er jeg mer optimistisk, for falske data er ikke det eneste holdepunktet vi har for å flagge en tekst som algoritmeskapt. Vi eier nemlig instinktet som roboten etterligner.
Eksperter har funnet at mennesker kan være bedre enn KI til å gjenkjenne slike tekster, og at dette særlig gjelder erfarne sensorer, selv etter at tekstene er omskrevet.
Men hva slags ferdigheter må man besitte for å kunne flagge en KI-generert tekst, også når den ikke inneholder faktuelle feil?
Tre ferdigheter er etter min erfaring uunnværlige (i tillegg til kunnskap i det relevante faget): 1) sterk språklig intuisjon, 2) erfaring med tekst, 3) formell lingvistisk kunnskap.
Profesjonelle «KI-sporere» må altså intuitivt kunne plukke opp språklige røde flagg, og så konvertere disse til eksplisitte lingvistiske markører. Med andre ord må vi operasjonalisere menneskelig språklig intuisjon.
Dette er noe språkvitere har drevet med siden Panini skrev verdens første grammatikk, 500 år før Kristus.
La oss ta noen eksempler på slike lingvistiske markører i en KI-generert tekst. Et av de sterkeste indisiene på at en tekst er fremstilt av kunstig intelligens, er gjentatte syntaktiske strukturer og fraser. Men disse kan være vanskelige å plukke opp for en uerfaren leser, særlig i de tilfellene der de ikke er korte, avgrensede fraser, men strukturer som går over flere linjer.
Et eksempel er en setning med en kort innledning, fulgt av tre elementer ramset opp:
«Vår suksess er forankret i en sterk helsekultur bygget på etikk, tverrfaglig samarbeid og kontinuerlig faglig utvikling.»
«Dette inkluderer utvidelse av spesialiserte behandlingstilbud, fremskritt innen medisinsk KI og pasientdataanalyse, samt styrking av våre forpliktelser innen folkehelse.»
«Et flerårig program med mål om å fremme forebyggende helsearbeid, redusere unødvendige sykehusinnleggelser og forbedre pasientutfall gjennom KI-drevet analyse.»
Disse setningene kan være krevende å oppdage fordi de ikke opptrer rett etter hverandre i teksten, og dessuten ligner ikke elementene som ramses opp på hverandre. Noen ganger er de substantiver (etikk), andre ganger er de verbfraser (fremme forebyggende helsearbeid). Og selv når ordene tilhører samme ordklasse, er det ikke alltid lett å få øye på.
Profesjonelle «KI-sporere» må altså intuitivt kunne plukke opp språklige røde flagg, og så konvertere disse til eksplisitte lingvistiske markører.
Margrete Dyvik Cardona
Men en lingvist vet at et substantiv med attributivt adjektiv (spesialiserte behandlingstilbud) og et substantiv pluss preposisjonsfrase (fremskritt innen medisinsk KI og pasientanalyse) er samme struktur, i den forstand at begge er en nominalfrase med et substantiv som kjerne, og at de har samme funksjon, i den forstand at begge er objekter til samme preposisjon ‘av’. Erfaringsmessig vil ikke KI-verktøy som er laget for å detektere KI-genererte tekster, plukke dette opp.
Et par slike setninger i en tekst er selvsagt ikke nok til å flagge den, men når man oppdager åtte til ti i en tekst på halvannen side, kan man begynne å lete etter flere markører.
Men repetitive syntaktiske strukturer er ikke det eneste man kan se etter.
Hvis teksten er av en viss lengde, kan man også gjøre en statistisk analyse av enkeltord, med analyseverktøy som SketchEngine.
En ting man kan se på, er overforbruk av såkalte demonstrative pronomener som denne eller det. Disse ordene er av de mest frekvente i menneskeskapte tekster, og på grunn av måten store språkmodeller genererer tekst på (ved å beregne statistisk sannsynlighet), blir slike ord gjerne overfrekvente i kunstig fremstilte tekster. Dette kan man avsløre hvis man sammenligner teksten med et korpus (en samling tekster) av menneskeskapte tekster, for eksempel artikler publisert før 2020.
Et program som Sketchengine kan på sekunder indikere om forskjellen i frekvens på pronomenet dette i prøveteksten og i korpuset er statistisk signifikant. Er den det, har du funnet nok en lingvistisk indikator på at teksten er kunstig fremstilt.
Denne metoden kan også brukes for å telle forekomsten av andre ord som er hyppige i KI-genererte tekster. For engelsk finnes det allerede lister av slike ord fritt tilgjengelig på nett, men det mangler ennå for norsk.
Eksempler på typiske ord som KI elsker, er underscore, delve og foster. Når frekvensen av disse ordene er signifikant høyere i studentteksten enn i et korpus av menneskeskapte tekster, har du skjellig grunn til mistanke.
Når nok lingvistiske pekepinner sammenfaller, kan både studenttekster og forskningsartikler gjennomskues utover rimelig tvil, og til forskjell fra problemet med hallusinering, er disse mønstrene krevende å identifisere og fjerne for den som sender teksten inn. Dessuten ender man opp med en dårlig tekst hvis målet med utformingen blir å unngå spesifikke strukturer fremfor å formidle innholdet på best mulig måte. Da går det gjerne fortere å bare skrive teksten selv.
Men for noen gjenstår fremdeles bekymringen rundt KIs raske utvikling. Vil ikke disse chatbotene snart bli så sofistikerte at man heller ikke på språklig grunnlag vil kunne flagge en tekst?
Vel, store språkmodeller er avhengige av menneskeskapte tekster for å trene seg. Men etter hvert som flere og flere bruker KI til å generere tekster, vil flere og flere av tekstene KI trener seg på, selv være kunstig generert. Og når KI trener seg selv, blir mønstrene i teksten forsterket, ikke svekket.
Forskere har til og med funnet at treningsgrunnlaget bare skal være litt «forurenset» før det kan føre til fullstendig systemkollaps.
Det er urealistisk å tro at man skal kunne kontrollere at alle tekster KI trener seg på, er menneskeskapte, all den tid man ikke vet hvordan mennesker har utformet tekstene de laster opp på nettet.
Vi kan matche tempoet i den teknologiske utviklingen ved å imitere imitatoren.
Margrete Dyvik Cardona
For å se etter tegn på KI-forurensning av tekster på internett, gjorde Claudia Förster Hegrenæs, førsteamanuensis i engelsk ved NHH, en tekstanalyse av engelske nyhetsartikler og Wikipedia-poster. Nærmere bestemt registrerte hun forekomsten av ord som hyppig opptrer i KI-genererte tekster.
Med verktøyet SketchEngine analyserte hun korpuset English Trends Corpus, et korpus som blir oppdatert hver uke med 70 millioner ord. Her sjekket hun forekomsten over tid av ord som underscore, delve og foster.

Resultatet var oppsiktsvekkende, men ikke overraskende: ordene hadde en skarp og tydelig eksplosjon i år 2022, da ChatGPT ble lansert.
Dette tyder på at internett, og dermed KIs treningsgrunnlag, allerede er infisert av KI-genererte tekster.
Vår øverste oppgave som utdanningsinstitusjon er å sørge for at fremtidens borgere tenker kritisk og selvstendig. Da må studentene skrive tekstene sine selv. Bare slik lærer de å strukturere argumenter, prioritere informasjon, og forbinde én idé med en annen.
Vi er mennesker og ikke maskiner, men vi kan matche tempoet i den teknologiske utviklingen ved å imitere imitatoren. Ved å gjøre myk intuisjon om til hard statistikk, kan vi slå KI i dens eget spill.
Nyeste artikler
Hadde ønskt seg eit signal om framtida
Om negative konsekvenser av høyere yrkesfaglig utdanning.
Vi kan vi slå KI i dens eget spill
Her fullfører flest studenter på normert tid
Khronos påskenøtter 2025
Mest lest
Ble avkrevd 190.000 kroner midt i semesteret. Måtte avbryte studiet
«Ment som en spøk», sa søkeren. Universitetet svarte med utestengelse i ett år
Ragnhild Hennum er ny rektor ved Universitetet i Oslo
Trump tar nesten tjue milliardar frå to universitet
Men gradsbetegnelsene våre får dere aldri!