Forslag til master og PhD-oppgaver i statistikk under veiledelse av Hans Skaug


Oversikt


1. Telling av hval og linjetransekt-metoder

For å bestemme antall vågehval plasserer man observatører ombord på tellefartøyer. Havforskningsinstituttet i Bergen (der jeg har jobbet i 8 år) har gjennomført slike telletokt siden 1987. Det finnes mange utfordringer for statistikere innen dette feltet. Eksempler på master- og PhD-oppgaver:
  1. Estimering av deteksjonsannsynlighet: Sannsynligheten g(x) for å se en hval som befinner seg i avstand x fra båten kalles deteksjonsannsynligheten. Når man skal estimere antall hval ut i fra de observasjonene man har gjort, er g(x) en meget viktig parameter. Hver gang observatørene ser en hval noterer de avstanden x. Fra observasjonene x_1,...,x_n kan man så estimere g(x) ved hjelp av regresjonsteknikker.
  2. Punktprosess-modellering Punktprosesser er stokastiske modeller for fordelingen av punkter på en linje eller i planet. Standardeksempelet på en punktprosess er Poisson-prosessen som representerer ren tilfeldighet. Dersom du fikk se et kart over fordelingen av hval ville du se at hvalene "klumper seg" i forhold til hva en skulle forvente under en homogen Poisson prosess. Grunnen til klumpingen er selvsagt at hvalene samles der det er mat å finne. For å beskrive dette fenomenet kan en bruke såkalte Cox er punktprosesser, også kalt dobbelt-stokastiske prosesser, som tillater klumping. Punktprosesser er morsomme matematiske objekter, og denne type oppgave gir mulighet til å kombinere interesse for matematikk/sannsynlighetsteori med statistikk/dataanalyse.
  3. Hva spiser vågehvalen? Kan vi finne ut dette uten å kikke i magen dens? Ja, dersom vi sammenlikner den geograiske fordeling av hval med utbredelsen av ulike byttedyrsarter (fisk og plankton) kan vi bruke regressjon (generaliserte lineære modeller) til å estimere preferansen for ulike byttedyrsarter. Kort sagt, dersom hvalen alltid oppholder seg der det finnes sild betyr det at den foretrekker sild. I virkeligheten er imidlertid bildet langt mere komplisert. F.eks. er det geografisk overlapp av byttedyrsarter, og det trengs statistikere til finne ut hva som egentlig foregår! Det er stor interesse for hva hvalen spiser, både i vitenskapelige kretser og i fiskeriforvaltningen.
Disse oppgavene vil gi mulighet til å jobbe med virkelige data, i grenselandet mellom fagene statistikk og biologi. Du vil se at statistikk er et meget praktisk og nyttig fag, og merke at du blir satt pris på som statistiker.

2. Bruk av DNA-profiler i studier av dyrepopulasjoner

Fra kriminalsaker og farskapsaker kjenner vi bruken av DNA-profiler. På samme måte som oss mennesker har hver vågehval sin unike DNA-profil. Denne DNA-profilen kan blant annet brukes til å studere slektskap mellom individer. Ved å søke i et register av DNA-profiler kan man finne individer som trolig er i nær familie. Problemstillinger som oppstår i denne forbindelsen er av typen: Gitt at vi kjenner DNA-profilen til to individer, hva er sannsynligheten for at det er mor og barn? Dette er selvfølgelig ren sannsynlighetsregning, og du vil få bruk for ting du har lært i kurs som STAT110 og STAT111. Ved å velge en slik oppgave vil du lære de statistiske metodene som brukes i rettsmedisin, blant annet Bayesiansk statistikk.

3. Parameterestimering i hierarkiske modeller

Hierarkiske modeller er en svært anvenlige, og de dukker opp innen mange felt: medisin, biologi, forsikring og finans. Kjært barn har mange navn, og hierarkiske modeller kalles ofte i steden "random effects models", "latent variable models" eller "state space models". Men, hva er de egenlig? La oss ta et enkelt eksempel: Anta X ~ N(U,S) og Y ~ N(U,S), dvs. normalfordelte med forventning U og varians S. Anta videre at U ~ N(0,T). Marginalt (når vi tar forventning mhp. U) får vi at Var(X) = S + T og Cov(X,Y) = T. Hierarkiske modeller kan på denne måten brukes til å beskrive korrelerte data.

Jeg har vært med på å utvikle en "random effects modul" for den statistiske programvaren: AD Model Builder. Dette programmet gjør det enkelt å implementere hierarkiske modeller som ellers ville vært betraktet som å være "avanserte". Det finnes mange mulige oppgaver du kan velge blant her, og her er et par forslag:
  1. Du tar utgangspunkt i et datasett som folk har analysert tidligere, og implementerer modellen i AD Model Builder. Dette er en fin måte å lære seg hierarkisk modellering på. Vi kan så gjøre en liten vri på analysen i forhold til hva som har vært gjort tidligere.
  2. Et annet populært program for hierarkiske modellering er WinBUGS. WinBUGS bruker en Bayesiansk innfalsvinkel, mens AD Model Builder bruker maximum likelihood til å estimere hyper-parametre. Dette gir fine muligheter til å sammenlikne Bayesianske og frekventistiske metoder.
Denne typen oppgave gir deg erfaring med moderne statistiske metoder som vil være nyttig i jobbsammenheng og eventuelle videre studier.

4. Computational statistics

På godt norsk: Beregningsstatistikk.

Ting som jeg jobber med, og som jeg kan veilede på:
  1. Laplace approksimasjonen for å evaluere høydimensjonale integraler numerisk. Dette er egentlig bare en 2-ledds Taylor-utvikling av logaritmen til integranden. Numerisk integrasjon spiller i dag en meget viktig rolle i statistikk. Mange størrelser av interesse (slik som marginalfordelinger) er gitt som integraler, og kun i spesialtilfeller finner man analytiske løsninger.
  2. Automatisk differensiering (AD) er en numerisk teknikk som lar datamaskinen beregne deriverte av en funksjon som vi har skrevet et program for. Dette er nyttig i mange sammenhenger, f.eks. dersom vi ønsker å maksimere funksjonen, slik som i maksimum-likelihood-estimering. Mange hevder at deriverte lett kan beregnes for hånd, og at man derfor ikke trenger AD. I kompliserte modeller er det imidlertid lett å gjøre feil, og hvorfor bruke tid på noe som maskinen gjør automatisk...?
Denne typen oppgave gir deg erfaring med programmering, numeriske teknikker og moderne statistiske metoder.

5. Regresjons-splines

Splines (eller muligens "spliner" på norsk") er en god gammel metode for å interpolere data. I statistikk ønsker vi skjelden eksakt interpolasjon av datapunktene fordi dette er å betrakte som en "overtilpasning". I stedet ønsker vi fleksible (ikke-parametriske) kurver som gir god tilpasning til data, men som samtidig er sparsommelige med bruk av frihetsgrader. Splines kan også brukes i høyere dimensjoner, og dermed er det å betrakte som en metode for romlig statistikk. Regresjons-splines er i dag en populær glattingsteknikk som er meget anvendelig, samtidig som det ligger en elegant matematisk teori i bunn.

Aktuelle oppgaver:
  1. Sammenlikne og utvikle metoder for å velge glattingsparameter. Valget av glatthet for splinet, dvs. antall frihetsgrader, er fundamentalt i bruken av splines. Ulike metoder eksisterer: kryssvalidering, MLE og AIC. Det vil være nyttig og lærerikt å sammenlikne disse.
  2. Det er vanlig å bruke en kvadratisk straffefunksjon i regresjons-splines. Dette valget påvirker den faktiske tilpassede kurven. Det vil være interessant å forsøke et L1-straffeledd.
Denne type oppgave gir erfaring med en nyttig statistisk teknikk, samt kjennskap til numeriske verktøy.