Hjem

Det humanistiske fakultet

FORSKING | språkteknologi

Forsking over grenser

Språkressursar vert lettare tilgjengelege for forskarar i heile Europa.

k-de-smedt.png

Bilde av professor i datalingvistikk Koenraad de Smedt
TILGANG TIL DATA: – Denne satsinga er viktig for humaniora, ho vil gje forskarane tilgang til eit mangfald av språkdatabasar, seier professor Koenraad De Smedt.
Foto:
Ingrid Endal

CLARINO-prosjektet som blei etablert i 2012 er snart ved vegs ende, og forskarar innafor fleire fagfelt får no ein enklare og meir effektiv arbeidskvardag. Gjennom eit felles søkjesystem får dei tilgang til eksisterande og framtidige språkressursar i eige og andre europeiske land.

– Ressursane det er snakk om er databasar som digitale ordbøker, tekstkorpus, taleopptak og litterære og historiske arkiv – alt som har med språk å gjere, også slikt som video-opptak av samtalar på ulike språk og psykologiske eksperiment om språk, fortel Koenraad De Smedt.

Effektiviserer forskinga

De Smedt er professor i datalingvistikk og har hatt koordineringsansvar for prosjektet. Oppgåva har bestått i å byggje ut den norske delen av CLARIN, ein europeisk, digital infrastruktur for språkforsking.

– Forsking som krev data frå ulike databasar og vitskaplege samlingar har til no vore både tid- og ressurskrevjande. Ein felles infrastruktur for databasane effektiviserer forskinga, ein må ikkje lenger søke i 100 katalogar, det er nok å søkje i ein, seier De Smedt.

– Dessutan, når norske språkdatabasar vert kopla opp mot europeiske databaser, opnar det seg store moglegheiter for interessante komparative studiar. Ein kan til dømes samanlikne språkbruk både historisk og over landegrensene, legg han til.

Dannar nye forskingsspørsmål

Dei ulike samarbeidspartnarane i CLARINO har hatt ulike oppgåver i prosjektet. Nokre har utvikla dei tekniske plattformane, andre har levert innhald. Språkvitarar ved UiB har lagt til rette for at søk i den felles katalogen kan utførast. 

– Jobben som har vore gjort her ved UiB har dreidd seg om å standardisere dataene i basane, eller det viktigaste av alt, metadataene, altså opplysningane om dataene. Vi har standardisert dei og katalogisert dei, og det er det som gjer at informasjonen i databasane vert samanliknbare og at ein kan utføre søk, fortel De Smedt.

Det viktige med dette arbeidet, og hovudmålet med prosjektet, er at all denne informasjonen no er tilgjengeleg og at den kan brukast. Samstundes, når metadata frå ulike basar no kan sjåast i samanheng på nye måtar, vil det danne grunnlag for heilt nye forskingsspørsmål.

– Vi utviklar ikkje ressursar, vi bidrar til forvalting av dei ressursane som er. Å forvalte dataene på ein god måte er ein viktig del av det akademiske systemet.

Viktig for humaniora

Kort sagt handlar CLARIN om bevaring, gjenbruk, tilgjengeleggjering og deling av forskingsdata innanfor humaniora. Oppbygginga av databasen er meir eller mindre ferdig, berre siste finpuss står att. Men De Smedt understrek at dette berre er første fase av prosjektet.

– Byggverket er reist, men det heile må driftast, og på same måte som for eit bibliotek, vert det heller aldri ferdig utbygd. Sidan starten av prosjektet har verda òg forandra seg, det har kome nye tekniske løysingar og nye krav til bruk av data. Det er ei kontinuerleg utvikling og vi treng ein «service scientist» til å betene infrastrukturen, seier han.

– Om vi får midlar til å vidareutvikle infrastrukturen og sikre drifta, vil dette leggje grunnlag for internasjonalt leiande forsking innanfor felt der Norge allereie har sterke miljø.