Hjem
Nye doktorgrader
Ny doktorgrad

Datamaskinelle språkressurser for Niger-Kongo-språket wolof

Cheikh Mouhamadou Bamba Dione disputerer torsdag 2. oktober 2014 for ph.d-graden ved Universitetet i Bergen med avhandlingen: «Formelle og komputasjonelle aspekter av wolof morfosyntaks i leksikalsk-funksjonell grammatikk».

Hovedinnhold

Avhandlingen presenterer språkressurser og -verktøy for wolof, et Niger-Kongo-språk. Hovedformålet har vært å utvikle en avansert formell grammatikk for automatisk språkanalyse i rammeverket leksikalsk-funksjonell grammatikk (LFG). Grammatikken omfatter presise regler for analyse av syntaks og logisk form i setninger. Dessuten er det utviklet en effektiv analysator for ordbøyning, basert på finitte tilstandsautomater. Bøyningsanalyse i wolof er utfordrende, fordi språket har et komplekst bøyningssystem som omfatter både konkatenative prosesser, der ord og bøyninger henges på hverandre i kjeder, og ikke-konkatenative prosesser, der ord og bøyninger forandrer form.

Avhandlingen gir en formell beskrivelse og syntaktisk analyse av kjernekonstruksjoner i wolof. Disse inkluderer f.eks. klitika (det fenomen at trykkløse ord kan henge seg på etterfølgende eller foregående ord) og komplekse predikater (serier av verb som syntaktisk kombineres til å uttrykke ett semantisk predikat). Grammatikken er blitt konstruert på grammatikkutviklingsplattformen Xerox Linguistic Environment og testet på et tilfeldig utvalg av setninger fra autentiske tekster. Den er blitt brukt til utvikling av en ‘trebank’ for wolof, det vil si et tekstkorpus annotert med utførlige analyser av setningene. Dette arbeidet benyttet utviklingsredskapet LFG Parsebanker, utviklet ved Universitetet i Bergen og Uni Research. Trebanker er verdifulle ressurser ved utvikling av språkteknologiske redskaper for et språk.

Det største problemet ved parsing av wolof er den store flertydigheten i mange uttrykk og setninger, som går ut over effektiviteten i analysen. Avhandlingens viktigste bidrag for å redusere dette problemet har vært å gjøre parseren dyktig til å utelukke ugrammatiske alternativer tidlig i analyseprosessen. Metodene for å oppnå dette har dels vært regelbasert og dels statistisk basert.

 

Personalia:

Cheikh Mouhamadou Bamba Dione er født i Senegal i 1978. Han fullførte datalingvistikkstudiet i 2010 ved Universitetet i Potsdam og har vært Marie Curie-stipendiat ved Universitetet i Bergen gjennom CLARA-projektet siden 2011. Doktorgradsarbeidet har blitt utført ved Institutt for lingvistiske, litterære og estetiske studier under veiledning fra professor Koenraad De Smedt. Han jobber nå for DASISH- og CLARINO-prosjektene.