Home
Department of Information Science and Media Studies

Warning message

There has not been added a translated version of this content. You can either try searching or go to the "area" home page to see if you can find the information there

Bjarte Johansen

"Hvordan kan vi bruke automatiske metoder til å strukturere og utvinne data fra ustrukturert norsk tekst?"

Dett er problemstillingen jeg først og fremst har lyst til å ta for meg på prosjektet. Dog et svært åpent spørsmål som trenger litt innsnevring. For det første så er domene veldig bredt. Det er vanskelig å si at noen av metodene som undersøkes kan brukes på all norsk tekst ettersom det verken er tid eller anledning til å gjøre data-innsamlingen som kreves eller prosesseringskraften noe sånt ville kreve. Jeg har derfor lyst til, som stillingsbeskrivelsen utlyser, å fokuser på tekster som omhandler og er i forholdet mellom medium og politikk. Grunnen til at jeg allikevel stiller et så åpent spørsmål er at utfallet fra dette prosjektet burde kunne bli overført til andre domener
relativt enkelt, så lenge datagrunnlaget er stort nok.

Det er dog flere problem som bør belyses før en kan være helt fornøyd med en slik problemstilling. Det første er "Hvor godt er norsk egnet for datautvinning?" Grunnen til at vi må stille dette spørsmålet er at forskningen innenfor feltet er dominert av engelsk og at forskningen på norsk tekst i beste tilfelle er "fragmentert".

Selv om engelsk er relativt nært til norsk, så er forskjellene store nok til at noen av metodene ikke vil fungere like godt. Spesielt de metodene som baserer seg på grammatikk og forekomsten av spesielle ord. Da blir det i tillegg til å implementere metodene også nødvendig å identifisere de tilsvarende ordene og grammatikken på norsk som trengs for å bruke metoden effektivt. Jeg har dog lyst til å unngå denne type metoder fordi det kan være veldig mye arbeid som går vekk til "oversettelsen" av ordene og grammatikken som kan heller brukes på å implementere og teste nye metoder.

Som vi ser har jeg fokusert forskningsspørsmålet mitt på norsk tekst. Dette er både fordi stillingsbeskrivelsen spesifikt spør etter dette, men også fordi slik jeg ser det så mangler det forskning innenfor feltet som fokuserer direkte på norsk. Det er kanskje ønskelig med et mer internasjonalt perspektiv på prosjektet, men jeg vil argumentere for at det ikke er nødvendig.

Hvor dette prosjektet kan ha internasjonal betydning er ved å verifisere eksisterende teori. Slik kan vi skape et referanseverk som ikke bare er interessant for norsk forskning, men kan vise vei internasjonalt for hvordan vi kan bruke disse metodene for andre språk enn engelsk. Vi kan se fra en nylig rapport fra META-NET at utenom engelsk så er det ingen andre språk i Europa som har god dekning av språkressurser som automatisk informasjonsutvinning og tekstanalyse.

Prosjektet i sin helhet kan også føre til innsikt i problemer som ikke er like lett å identifisere i engelsk tekst. Dette er ikke fordi norsk egner seg bedre til den slags ting, men fordi prosjektet skifter vekk fra det vanlige domenet og inn i et annet. Et skift i domene kan belyse problemer og mangler som er vanskelig å oppdage i et velutprøvd domene.

For å summere problemstilling så har vi at prosjektet kan være med på skape et referanseverk for automatisk analyse av norsk tekst, men som fortsatt kan beholde et internasjonalt perspektiv. Prosjektet er også i en unik posisjon til å kunne tilføre ny innsikt til fagfeltet.

Hjemmeside Bjarte Johansen