Nr 5 - 2001

Les om:
Natur
Helse
Språk / Kultur
Samfunn
Kommentar/
politikk

Universitetet i Bergen sine hovedsatsings- områder er
marin forskning og utviklings-
forskning

Redaksjon

 

 

Ny språkkunnskap kan hjelpe internettbrukere

Datalingvister ved UiB benytter matematiske metoder til å utvikle et ordnett. Ordnettet vil blant annet gi grunnlag for bedre programvare for automatisk oversettelse og tekstsøking på Internett.

Tekst: Grete Heegaard   Foto: Odd Mehus

Helge Dyvik utvikler et såkalt ordnett, en database over ordene i et språk ordnet etter betydningene.

– Utviklingen av tale teknologi og fremveksten av Internett og andre søknader databaser på 90-tallet har gjort språkteknologi kommersielt interessant. Særlig den tilgangen på store mengder tekst på mange språk som Internett gir, øker behovet for automatiske oversettelser, sammendrag og bedre redskaper for informasjonssøk og tekstforståelse, sier professor Helge Dybvig ved Seksjon for lingvistiske fag ved UiB. Han er leder for prosjektet "Fra parallellkorpus til ordnett", et nystartet samarbeid mellom HIT-senteret og Seksjon for lingvistiske fag.

I utviklingen av teknologiske redskaper for oversettelse og annen meningsbærende tekstbehandling er oppbyggingen av ordnett viktig. Ordnett er en database over ordene i et språk og er strukturert etter betydningen. Ords ulike betydninger er skilt ut, og ulike betydninger er gruppert etter likhet (synonymi), og etter over- og underbegreper. (For eksempel: En stol er et møbel og en hund er et dyr.)

– På grunnlag av slike ordnett er det lettere å utvikle programvare som kan takle flertydigheter. Programvaren bør for eksempel kunne vite om ordet "trykk" skal oversettes til engelsk med "stress", "pressure" eller "print". Systemer for automatisk entydiggjøring av ord på grunnlag av de sammenhengene de står i, er et aktivt forskningsfelt internasjonalt, og ordnett er en viktig informasjonskilde for mange slike systemer, sier Dyvik. Han understreker at prosjektet "Fra parallellkorpus til ordnett" er anvendelsesorientert grunnforskning.

– Foruten automatiske oversettelser muliggjør ordnett innholdsbasert informasjonssøk. For eksempel vil internettbrukeren kunne finne dokumenter som ikke inneholder det ordet hun søker på, men ord med liknende betydninger. Ordnett kan også danne grunnlag for systemer for automatisk tekstforståelse. Eksempelvis vil programvaren kunne svare på om teksten handler om et dyr, dersom ordet "hund" er brukt i teksten, illustrerer Dyvik.

Matematisk metode

For å utvikle et norsk ordnett tar datalingvistene utgangspunkt i et eksisterende engelsk-norsk parallellkorpus utarbeidet under ledelse av professor Stig Johanson ved Universitetet i Oslo. Parallellkorpuset er en strukturert elektronisk søkbar tekstsamling, bestående av norske originaler og deres engelske oversettelser, der originalene og oversettelsene er parallellstilt på setningsnivå. Tekstene er både skjønnlitteratur og sakprosa, og er oversatt av profesjonelle oversettere.

– Første del av ordnettprosjektet er å utvikle dette korpuset til også å lenke sammen oversettelser på ordnivå. Da kan maskinen finne oversettelser også av bestemte ord, ikke bare hele setninger. Søk på ord i det ene språket i dette korpuset gir forekomstene av ordene i kombinasjon med deres oversettelser i det andre språket, sier Dyvik.

Neste forskningstrinn tar i bruk en metode utviklet av Dyvik kalt "semantiske speil". Den er basert på antakelsen at betydningsforbindelser mellom ord kommer til syne i nettverket av oversettelsesforbindelser mellom to språk. For eksempel vil det være slik at to ord som står hverandre nær betydningsmessig, har mange oversettelser felles. Videre vil et ord som har videre betydning enn et annet (som "god" sammenlignet med "snill") gjerne ha alle de samme oversettelsene som det snevrere ordet, pluss flere. At ord er flertydige, kommer også til syne i disse oversettelsesmønstrene. For eksempel er "tak" flertydig ("hustak" vs "grep") - og kan oversettes til engelsk med "roof", "ceiling", "hold" og "grip". At "roof" og "ceiling" er beslektet, kommer til syne i at de har felles oversettelser i tillegg til "tak". Det har også "hold" og "grip". Derimot har f. eks. ikke "hold" og "roof" noen felles oversettelser i tillegg til "tak". Slike fremkommer det at "tak" er tvetydig.

På grunnlag av ordenes plassering i overlappende oversettelsesmengder får hvert av dem deretter automatisk ett sett av trekk, som koder plasseringen av ordet i en struktur. Resultatet er for eksempel at ordet "god" vil få visse trekk, mens underbegrepene "effektiv" og "enestående" vil få de samme trekkene pluss flere. På grunnlag av overlappinger mellom disse trekkstrukturene kan ordbetydningene, ved at det tas i bruk en matematisk metode, plasseres i såkalte semilatticer, der ordbetydningene synes å bli gruppert etter slektskap, med overbegrep plassert over underbegrep (se illustrasjon). Disse semilatticene inneholder dermed informasjon av den typen man ønsker å kode i ordnett.

– Prosjektets siktemål er å teste om denne metoden gir gyldige resultater når den anvendes i stor skala.

Maskinenes begrensning

Forsøket på å bygge ordnett automatisk på grunnlag av språklige data er et eksempel på maskinlæring, som handler om å finne metoder for at maskiner selv kan lære noe om språkstrukturer og bygge opp kunnskap om språk, for eksempel utarbeide grammatikker for et språk på grunnlag av tekst.

– Innenfor datalingvistikken er det ulike forventninger til hvor langt man kan komme med maskinlæringsmetoder, og i hvilken grad mennesker må legge inn kunnskapen om språk i systemene. Innenfor feltet taleteknologi (syntetisk tale, automatisk diktering osv.) hvor man kommet langt med slike "selvlærende" metoder, mens de er kommet kortere på områder av språket som har med betydninger å gjøre, sier Dyvik og hevder at det uansett metoder også er ulike forventninger til hvor langt språkteknologien kan komme i å etterligne menneskets språkferdigheter.

Ifølge Dyvik vil automatisk oversettelse neppe noensinne komme på nivå med den menneskelige, med noe som overhodet ligner på dagens teknologi. Den vesentlige grunnen til det er at god oversettelse forutsetter kulturkunnskap og sakkunnskap i tillegg til den språklige, og slike kunnskaper er vi ikke i nærheten av å kunne formalisere.


Ordet "god" kan ha mange betydninger. I såkalte semilatticier er betydningene gruppert etter slektskap.

Men maskinoversettelse kan likevel være nyttig på begrensede områder. Hvis man for eksempel gir avkall på høy språklig kvalitet, kan man få til en grovsortering av tekster. En medisiner som for eksempel ønsker å lese nyere medisinsk forskning fra Kina vil ha fryktelig mange artikler å ta av, og vet kanskje ikke hva han skal velge. Automatisk grovoversettelse av disse ville kunne gi et visst inntrykk av hva de handler om, slik at forskeren deretter kan få skikkelig oversatt dem han ser er av interesse. Hvis man på den annen side innsnevrer feltet til en smal teksttype, f. eks. værmeldinger, kan man få automatisk oversettelse av god kvalitet. Men noe må man altså gi avkall på, i forhold til det en profesjonell menneskelig oversetter kan levere.

– Det interessante med språk er spenningen mellom det kreative og åpne på den ene siden og det mekaniske og regelbundne på den andre. Det er kun denne siste siden som i dag kan formaliseres innenfor språkteknologi. Likevel tror jeg det er ganske åpent hvor langt den språkteknologiske forskningen kan føre oss, sier Dybvig.

 

 

"Natural language, whether it is typing in sentences or speech recognition, is destined to play a very central role in the operating systems and the applications in the future"

"Speech is not just the future of Windows, but the future of computing itself."

(Microsofts Bill Gates i Business Week, 23. februar 1998)

ABC om språkteknologi

Språkteknologi er teknologi som innarbeider kunnskap om menneskelig språk, og som derigjennom kan etterligne sider av menneskets språkferdighet. Man skiller ofte mellom taleteknologi og annen språkteknologi (også kalt tekstorientert språkteknologi)

Taleteknologiske produkter er systemer som bygger på informasjon om talenslydlige strukturer og innebærer talegjenkjenning og talesyntese. Slike taleteknologiske produkter kan for eksempel være talestyrte maskiner, taleproteser og systemer for automatisk diktering eller epost-høytlesing.

Andre og tekstorienterte språkteknologiske produkter er systemer som bygger på informasjon om ordforråd, bøyningssystemer, setningsoppbygging, menings. og tekststruktur m.m. Disse produktene kan være systemer for automatisk korrekturlesing og språkkontroll, automatisk tekstsammendrag, maskinoversettelse og flerspråklig tekstproduksjon, datastøttet språklæring og informasjonssøking i tekst.

Språkteknologi er ikke ett fag, men en virksomhet som bygger på flere fag og forskningsfelt som tradisjonelt har hatt liten forbindelse med hverandre: Fonetikk, datalingvistikk, formell linvistikk, logisk semantikk, informatikk, matematisk språkteori, statistikk, signalbehandling og elektronikk.

 

 

 

Copyright © 2001-2002 Universitetet i Bergen  Ansvarlig redaktør: Morten Steffensen Kontaktredakjsonen