
Helge Dyvik utvikler et såkalt ordnett, en database over ordene i et språk ordnet etter betydningene.
|
Utviklingen av tale teknologi og fremveksten av Internett og andre søknader databaser på 90-tallet har gjort språkteknologi kommersielt interessant. Særlig den tilgangen på store mengder tekst på mange språk som Internett gir, øker behovet for automatiske oversettelser, sammendrag og bedre redskaper for informasjonssøk og tekstforståelse, sier professor Helge Dybvig ved Seksjon for lingvistiske fag ved UiB. Han er leder for prosjektet "Fra parallellkorpus til ordnett", et nystartet samarbeid mellom HIT-senteret og Seksjon for lingvistiske fag.
I utviklingen av teknologiske redskaper for oversettelse og annen meningsbærende tekstbehandling er oppbyggingen av ordnett viktig. Ordnett er en database over ordene i et språk og er strukturert etter betydningen. Ords ulike betydninger er skilt ut, og ulike betydninger er gruppert etter likhet (synonymi), og etter over- og underbegreper. (For eksempel: En stol er et møbel og en hund er et dyr.)
På grunnlag av slike ordnett er det lettere å utvikle programvare som kan takle flertydigheter. Programvaren bør for eksempel kunne vite om ordet "trykk" skal oversettes til engelsk med "stress", "pressure" eller "print". Systemer for automatisk entydiggjøring av ord på grunnlag av de sammenhengene de står i, er et aktivt forskningsfelt internasjonalt, og ordnett er en viktig informasjonskilde for mange slike systemer, sier Dyvik. Han understreker at prosjektet "Fra parallellkorpus til ordnett" er anvendelsesorientert grunnforskning.
Foruten automatiske oversettelser muliggjør ordnett innholdsbasert informasjonssøk. For eksempel vil internettbrukeren kunne finne dokumenter som ikke inneholder det ordet hun søker på, men ord med liknende betydninger. Ordnett kan også danne grunnlag for systemer for automatisk tekstforståelse. Eksempelvis vil programvaren kunne svare på om teksten handler om et dyr, dersom ordet "hund" er brukt i teksten, illustrerer Dyvik.
Matematisk metode
For å utvikle et norsk ordnett tar datalingvistene utgangspunkt i et eksisterende engelsk-norsk parallellkorpus utarbeidet under ledelse av professor Stig Johanson ved Universitetet i Oslo. Parallellkorpuset er en strukturert elektronisk søkbar tekstsamling, bestående av norske originaler og deres engelske oversettelser, der originalene og oversettelsene er parallellstilt på setningsnivå. Tekstene er både skjønnlitteratur og sakprosa, og er oversatt av profesjonelle oversettere.
Første del av ordnettprosjektet er å utvikle dette korpuset til også å lenke sammen oversettelser på ordnivå. Da kan maskinen finne oversettelser også av bestemte ord, ikke bare hele setninger. Søk på ord i det ene språket i dette korpuset gir forekomstene av ordene i kombinasjon med deres oversettelser i det andre språket, sier Dyvik.
Neste forskningstrinn tar i bruk en metode utviklet av Dyvik kalt "semantiske speil". Den er basert på antakelsen at betydningsforbindelser mellom ord kommer til syne i nettverket av oversettelsesforbindelser mellom to språk. For eksempel vil det være slik at to ord som står hverandre nær betydningsmessig, har mange oversettelser felles. Videre vil et ord som har videre betydning enn et annet (som "god" sammenlignet med "snill") gjerne ha alle de samme oversettelsene som det snevrere ordet, pluss flere. At ord er flertydige, kommer også til syne i disse oversettelsesmønstrene. For eksempel er "tak" flertydig ("hustak" vs "grep") - og kan oversettes til engelsk med "roof", "ceiling", "hold" og "grip". At "roof" og "ceiling" er beslektet, kommer til syne i at de har felles oversettelser i tillegg til "tak". Det har også "hold" og "grip". Derimot har f. eks. ikke "hold" og "roof" noen felles oversettelser i tillegg til "tak". Slike fremkommer det at "tak" er tvetydig.
På grunnlag av ordenes plassering i overlappende oversettelsesmengder får hvert av dem deretter automatisk ett sett av trekk, som koder plasseringen av ordet i en struktur. Resultatet er for eksempel at ordet "god" vil få visse trekk, mens underbegrepene "effektiv" og "enestående" vil få de samme trekkene pluss flere. På grunnlag av overlappinger mellom disse trekkstrukturene kan ordbetydningene, ved at det tas i bruk en matematisk metode, plasseres i såkalte semilatticer, der ordbetydningene synes å bli gruppert etter slektskap, med overbegrep plassert over underbegrep (se illustrasjon). Disse semilatticene inneholder dermed informasjon av den typen man ønsker å kode i ordnett.
Prosjektets siktemål er å teste om denne metoden gir gyldige resultater når den anvendes i stor skala.
Maskinenes begrensning
Forsøket på å bygge ordnett automatisk på grunnlag av språklige data er et eksempel på maskinlæring, som handler om å finne metoder for at maskiner selv kan lære noe om språkstrukturer og bygge opp kunnskap om språk, for eksempel utarbeide grammatikker for et språk på grunnlag av tekst.
Innenfor datalingvistikken er det ulike forventninger til hvor langt man kan komme med maskinlæringsmetoder, og i hvilken grad mennesker må legge inn kunnskapen om språk i systemene. Innenfor feltet taleteknologi (syntetisk tale, automatisk diktering osv.) hvor man kommet langt med slike "selvlærende" metoder, mens de er kommet kortere på områder av språket som har med betydninger å gjøre, sier Dyvik og hevder at det uansett metoder også er ulike forventninger til hvor langt språkteknologien kan komme i å etterligne menneskets språkferdigheter.
Ifølge Dyvik vil automatisk oversettelse neppe noensinne komme på nivå med den menneskelige, med noe som overhodet ligner på dagens teknologi. Den vesentlige grunnen til det er at god oversettelse forutsetter kulturkunnskap og sakkunnskap i tillegg til den språklige, og slike kunnskaper er vi ikke i nærheten av å kunne formalisere.

Ordet "god" kan ha mange betydninger. I såkalte semilatticier er betydningene gruppert etter slektskap.
|
Men maskinoversettelse kan likevel være nyttig på begrensede områder. Hvis man for eksempel gir avkall på høy språklig kvalitet, kan man få til en grovsortering av tekster. En medisiner som for eksempel ønsker å lese nyere medisinsk forskning fra Kina vil ha fryktelig mange artikler å ta av, og vet kanskje ikke hva han skal velge. Automatisk grovoversettelse av disse ville kunne gi et visst inntrykk av hva de handler om, slik at forskeren deretter kan få skikkelig oversatt dem han ser er av interesse. Hvis man på den annen side innsnevrer feltet til en smal teksttype, f. eks. værmeldinger, kan man få automatisk oversettelse av god kvalitet. Men noe må man altså gi avkall på, i forhold til det en profesjonell menneskelig oversetter kan levere.
Det interessante med språk er spenningen mellom det kreative og åpne på den ene siden og det mekaniske og regelbundne på den andre. Det er kun denne siste siden som i dag kan formaliseres innenfor språkteknologi. Likevel tror jeg det er ganske åpent hvor langt den språkteknologiske forskningen kan føre oss, sier Dybvig.
|