Hjem

Nye doktorgrader

Automatisk induksjon av informasjonsstrukturer i språket

Samia Touileb disputerer fredag 25. august 2017 for ph.d.-graden ved Universitetet i Bergen med avhandlingen: "Automatically Inducing Information Structures – A Text Mining Approach Based on the Distributional Hypothesis".

I avhandlingen sin har Samia Touileb koblet sammen lingvistiske og samfunnsvitenskapelige teorier for å utvikle en ny automatisert tekstutvinningsmetode som induserer strukturer av ordsekvenser. Disse strukturene reflekterer hvordan et gitt tema er diskutert.

Tilnærmingen hennes bruker en grammatikkinduksjons-algoritme for å fange det strukturelle aspektet av språket. Dette står i kontrast til metodene som for øyeblikket dominerer samfunnsvitenskapelige anvendelser av tekstutvinning. Hennes metode overvinner noen av standardmetodenes begrensninger. Hun viser hvordan enkelte ord og deres frekvenser kan fortelle hva en tekst handler om, men at man må ta hensyn til ordrekkefølgen for å få oversikt over diskursen og hva som egentlig er sagt.

Informasjonsstrukturer produsert av hennes metode har en fordel i forhold til bruk av nøkkelord, siden de også oppsummerer deres samtekst. Strukturene inneholder både ordet, ofte brukte ordkombinasjoner før og etter ordet, og andre ord som brukes i lignende kontekster.

Slike strukturer kan bli brukt til å analysere data for forskjellige formål, og de kan avdekke hva som egentlig er sagt om nøkkelbegreper. Informasjonsstrukturene kan også klassifisere noen av de ulike måtene nøkkelordene er diskutert på. Hennes metode har blitt testet for å identifisere hvordan folk kan gi ulike fremstillinger av virkeligheten, enten det er snakk om klimaendringer eller oljeboring i Lofoten, ved å se på ordvalget deres og hvordan disse ordene er satt sammen.

 

Personalia

Samia Touileb er født 23.01.1988. Hun tok en bachelorgrad i informatikk og en mastergrad i Intelligent Computer Systems ved University of Sciences and Technology Houari Boumediene, i Alger, Algerie. I 2012 begynte hun på doktorgrad i informasjonsvitenskap ved Det Samfunnsvitenskapelige Fakultet med veiledning fra professor Dag Elgesem, og Andrew Salway fra uniResearch. Doktorgradsstipendet var finansiert av Forskningsrådet.