Hjem
Universitetsbiblioteket
Digital Lab

Korpusverksted: Tekstutvinning i offentlige dokumenter

Tekstutvinning («text mining») er en samlebetegnelse på teknikker for tekstanalyse ved hjelp av digitale verktøy. Denne workshopen tar for seg et knippe slike verktøy og hvilke metodologiske problemstillinger man kan møte når man benytter dem til å analysere offentlige dokumenter og annen sakprosa.

Ryggen av serien Stortingsforhandlinger, 1992-1993
Ryggen av serien Stortingsforhandlinger
Foto/ill.:
NBo-HS, Wikimedia Commons

Hovedinnhold

Opplegget består av tre foredrag og praktisk utprøving av UiBs Korpuskel og Nasjonalbibliotekets dhlab. Underveis i de praktiske delene vil vi presentere hvordan man kan avgrense og analysere tekstsamlinger i disse verktøyene.

Målgruppen for workshopen er studenter og forskere innenfor historie, samfunnsvitenskap og jus.

Program:

9:00 - 9:30: Introduksjonsforedrag: "Treng vi fulltekst? Byråkratar, forskarar og fag om ulike perspektiv på politiske tekstkorpus" (Arne Solli, førsteamanuensis i historie ved UiB)

9:30-9:50: Finn saken: Stortingsforhandlinger og NB/Statsmaktene (Arne Solli)

10:00-10:50: Clarino og Nasjonalbibliotekets webgrensesnitt (Henrik Askjer)

11:00-11:30: Foredrag om korpusanalyse (Heidi Karlsen, forsker og bibliotekar ved BI og foreleser i digital humaniora ved UiO)

11:30-12:00 Nasjonalbibliotekets dhlab i Jupyter Notebook (Henrik Askjer)

12:00-12:30: Lunsj

12:30-13:00: Foredrag: Tove Bruland om hvordan hun i masteroppgaven benyttet #lancsbox til å analysere læreplaner 1974-2000

13:10-14:30: Diskusjon/presentasjon av problemstillinger

14:30-15:00: Videre utprøving av verktøy for de som måtte ønske