Universitetet i Bergen : Doktorgrader : 2011

NY DOKTORGRAD

Forståelsesfull språkteknologi

Gunn Inger Lyse   

Cand.philol. Gunn Inger Lyse disputerer fredag 9. desember 2011 for ph.d.-graden ved Universitetet i Bergen med avhandlingen:

"Translation-based Word Sense Disambiguation"

Ordforrådet vårt er forbløffende fullt av flertydighet, altså begreper med mer enn én betydning. For maskiner er flertydigheter en stor utfordring siden bruken av flertydigheter forutsetter en evne til å forstå ordbetydninger. Tenk at en maskin skal kunne oversette setningen ”Vi spiller på lag” automatisk for deg fra norsk til engelsk. Hvordan skal da systemet kunne vite om ”lag” skal oversettes som ”team” eller ”layer”?

Orddisambiguering (Word Sense Disambiguation) er forskningsfeltet som utforsker metoder for å sette systemer i stand til å identifisere den relevante betydningen av et ord i en gitt sammenheng. Den mest lovende tilnærmingen til orddisambiguering i dag er eksempelbasert læring. Dette betyr at systemet ”lærer” å gjenkjenne ordbetydninger ved å presenteres for konkrete eksempler på omgivelsene som en ordbetydning typisk opptrer i. Denne metoden er oftest statistisk basert, og problemet med tilnærmingen er at systemet trenger mange eksempler, og at hvert eksempel på forhånd må være merket med riktig betydning. Slike treningssett er derfor kostbart og tidkrevende å produsere.

Lyse har utforsket en metode for automatisk å bygge slike treningsssett, som deretter kan brukes til å lære et system å disambiguere ord. For ytterligere å kompensere for små treningssett har Lyse videre eksperimentert med å ”utvide” treningssettene ved å supplere informasjon fra en database hvor ord er lenket sammen betydningsmessig – hvis ”landskamp” er et typisk ord for omgivelsen til ’team’-betydningen av ”lag”, og hvis ”landskamp” er betydningsmessig lik ”sport”, så kan systemet lære at sportsbegreper generelt er typisk for ’team’-betydningen av ”lag”. Lyses arbeid er det første større norske bidrag til arbeid med orddisambiguering, og har bl.a. gitt det første kvalitetssikrede norske testsettet for videre arbeid med orddisambiguering for norsk.

Personalia:
Gunn Inger Lyse er født i 1977 og er oppvokst på Stranda. Hun ble cand.philol. ved Universitetet i Bergen i 2003, med hovedfag i datalingvistikk og språkteknologi. I perioden 2003–2010 har hun hatt stillinger ved UiB og Uni Research AS som stipendiat, universitetslektor og forsker. Siden 2011 har hun arbeidet som forsker i datalingvistikk og språkteknologi i prosjektene INESS og Meta-Nord ved Institutt for lingvistiske, litterære og estetiske studier, Universitetet i Bergen.

Tidspunkt og sted for prøveforelesningen:
08.12.2011, kl. 17.15. Oppgitt emne: "Using Translations as Word senses"
Sted: Sydneshaugen skole, auditorium B

Tidspunkt og sted for disputasen:
09.12.2011, kl. 9.30, Sydneshaugen skole, auditorium B

Kontaktpersoner:
Gunn Inger Lyse, tlf. 55 58 22 65, epost: gunn.lyse@uib.no

Mediekontakt ved Kommunikasjonsavdelingen
E-post: mediekontakt[ætt]uib.no
Telefon: 55 58 89 00

Avhandlingen kan lånes på Bibliotek for samfunnsvitenskap og humaniora. Avhandlingen er tilgjengelig i BORA. For kjøp/bestilling av avhandlingen, kontakt kandidaten direkte.