UiB : HF : LiLi : SLF
 
DaSp

Forslag til Datalingvistisk og Språkteknologisk studieretning (DaSp)

Om datalingvistikk og språkteknologi

Datalingvistikk er vitenskapen om menneskelig språk og språkbruk, utforsket ved hjelp av teorier og modeller med røtter i informatikk, logikk, matematisk lingvistikk og informasjonsteoretiske prinsipper.  Metodene og modellene er basert på statistikk (ofte korpusbasert), simulering, kunnskapsrepresentasjon, regelbaserte teknikker, søking, læring og optimalisering - mange lånt fra kunstig intelligens.  Det som skiller datalingvistikk fra teoretisk (allmenn) lingvistikk, som også utforsker menneskelig språk, er først og fremst at datalingvistikken konsentrerer seg om prosesser, særlig analyse- og synteseprosedyrer som kan tolke og produsere språk.  Datalingvistikk er et grunnforskningsfelt som både kan gi psykolingvistisk innsikt i hvordan mennesket behandler språk, og kan gi grunnlag for språkteknologiske anvendelser. Datalingvistikk går hånd i hånd med språkteknologi, som har en rekke anvendelsesområder, f.eks. i naturlig-språklig kommunikasjon mellom menneske og maskin (i forbindelse med databaser og ekspertsystemer), i informasjonsøkningssystemer, tekstbehandlingssystemer, systemer for automatisert oversettelse, språkpedagogiske hjelpemidler og hjelpemidler for funksjonshemmede.

Organisering av studieretningen

Datalingvistisk og språkteknologisk studieretning omfatter Datalingvistikk grunnfag, Språkteknologi grunnfag, Datalingvistikk og språkteknologi mellomfag og Datalingvistikk og språkteknologi hovedfag.  Begge grunnfag gir tilgang til mellomfaget.  Mellomfaget gir tilgang til hovedfaget.  Studieretningen er modulisert slik at utvalgte emner utgjør spesifikke flerfaglige tilbud, som særlig bidrar med språkvitenskapelige EDB-baserte metoder rettet mot språkfagene og humanistisk informatikk.


Datalingvistikk grunnfag

Organisering av studiet

Datalingvistikk grunnfag er et studium over to semestre og regnes som 20 vt.  Studiet inkluderer 6 vekttall fra Lingvistikk delfag i form av fritt valg mellom LING101, LING102, LING103, LING104 og LING105.  Selv om valget er fritt, anbefales særlig LING101, LING102 og LING103.

Studiets formål og innhold

Grunnfaget skal gi kandidatene et lingvistisk grunnlag, et datafaglig grunnlag og en innføring i bruk av vitenskapelige komputasjonelle metoder på språklig materiale.  Grunnfaget tilbyr særlig teori om formelle metoder i lingvistikken, teori og praksis i datalingvistiske og språkteknologiske metoder, korpuslingvistikk og bruk av EDB i språkvitenskapelig sammenheng. Det legges stor vekt på praktiske øvelser, der studentene skal oppnå en grunnleggende ferdighet i programmering for å skrive og modifisere enklere programmer for språkprosessering og skal lære å bruke korpuslingvistiske verktøy.

Startgrunnlag

Det kreves avlagt Forprøve i språkvitenskap. Det anbefales å ta et språkfag eller et datafag før man begynner på grunnfaget. Det er en fordel om man kan bruke datamaskin og spesielt om man behersker tastaturet.

Undervisning og moduler

For å få godkjent fullt grunnfag må følgende moduler være bestått (totalt 20 vt.):

Datalingvistikk og språkteknologi mellomfag

Organisering av studiet og startgrunnlag

Datalingvistikk og språkteknologi mellomfag bygger på Datalingvistikk grunnfag (20 vt.) eller Språkteknologi grunnfag (20 vt.).  De resterende 10 vekttall tas i form av modulene beskrevet nedenfor som utgjør et studium over ett semester.

Studiets formål og innhold

Mellomfaget skal gi studenten en innføring i mer avanserte emner innen datalingvistikk og språkteknologi. Mellomfaget vil kvalifisere studenten for mer selvstendig deltagelse i datalingvistisk forskning og språkteknologisk utvikling.  Mellomfaget kvalifiserer også for opptak til Datalingvistikk og språkteknologi hovedfag.  Utover modulene fra grunnfag omfatter studiet særlig datalingvistiske grammatikker, leksikon, og semantisk og pragmatisk prosessering. Det legges stor vekt på praktiske øvelser, der studentene skal lære å bruke datalingvistiske og språkteknologiske verktøy og skal utforme et litt større system for språkprosessering.

Undervisning og moduler

For å få godkjent fullt mellomfag må følgende moduler være bestått  (totalt 30 vt.):

Datalingvistikk og språkteknologi hovedfag

Organisering av studiet og startgrunnlag

Datalingvistikk og språkteknologi hovedfag forutsetter bestått Datalingvistikk og språkteknologi mellomfag. Studiet skal normalt ta fire semestre og regnes som 40 vt.  Hovedfaget inneholder en viss valgfrihet som tillater studenten å orientere seg noe mer i teoretisk eller teknologisk retning, og gir mulighet for å inkludere ulike tverrfaglige perspektiv.

Studiets formål og innhold

Hovedfaget skal gi studenten en grundig fordypning i utvalgte avanserte emner i datalingvistikk og språkteknologi, særlig maskinoversettelse og kunstig intelligens og maskinlæring ifm. språkmodellering.  Det tilbys vitenskapsteori og metode som skaffer et viktig grunnlag for forskningskompetanse.  Halvparten av hovedfaget består av en hovedoppgave, som skal skrives med utgangspunkt i et hovedfagsprosjekt. Som regel er hovedfagsprosjektet tilknyttet et forsknings- eller utviklingsmiljø og involverer arbeid med datalingvistiske eller språkteknologiske systemer.

Undervisning og moduler

For å få godkjent fullt hovedfag må følgende moduler være bestått  (totalt 40 vt.):

Beskrivelse av modulene:

Generelt om alle modulene:

DASP101: Programmering og søkestrategier (4 vt.)

Mål

Kursets mål er å gi studenten et datafaglig grunnlag i datastrukturer og algoritmer, særlig mht. søkestrategier.  Hovedmålet er å skaffe et metodegrunnlag for videre kurs i datalingvistikk og språkteknologi.  Videre er målet å skaffe praktiske ferdigheter i programmering som kan anvendes innenfor et vidt spekter av EDB-problemstillinger.

Startgrunnlag

Det er en fordel om studenten har noe erfaring i praktisk bruk av datamaskinen og spesielt at man behersker tastaturet.

Innhold

Kurset tar utgangspunkt i datastrukturer og algoritmer. Særlig behandles datastrukturer for representasjon av språk (lister, symboler, strenger, tegn) og algoritmer for søkestrategier (dybde først, bredde først, osv.) som er kurante i datalingvistisk og språkteknologisk programmering.  Det legges opp til en gjennomgående funksjonell og rekursiv programmeringsstil.  Videre legges det vekt på forskjellen mellom programutvikling ovenfra ned og nedenfra opp.  I utgangspunkt brukes samme programmeringsspråk som på DASP104.  Studenten skal lære effektiv bruk av en programmeringsomgivelse på datamaskin for skriving og testing av programmer.

Undervisningsform

Forelesninger og øvelser på datamaskin.

Eksamen

Prøve på 4 timer på datamaskin.

Tverrfaglig tilbud

Denne modulen er egnet som et generelt tverrfaglig tilbud.

DASP102: Formelle språk og automatteori (3 vt.)

Mål

Hensikten med kurset er å gi studenten en innføring i formelle tilnærmingsmåter i språkvitenskap. Dette skal gi studenten et grunnlag for å lese faglitteratur i både formell lingvistikk, datalingvistikk og språkteknologi.

Startgrunnlag

Forprøven i språkvitenskap.

Innhold

Innholdet omfatter logikk, formelle språk, grammatikker og automater, Chomsky-hierarkiet, finitte tilstandsautomater, regulære språk og type 3 grammatikker, stablautomater, kontekstfrie grammatikker og språk, Turingmaskiner, kontekstsensitive språk, språk mellom kontekstfrie og kontekstsensitive.

Undervisningsform

Forelesninger og øvelser.

Eksamen

Skriftlig prøve på 4 timer.

Tverrfaglig tilbud

Denne modulen er egnet som tverrfaglig tilbud til studenter på informatikk og humanistisk informatikk.

DASP103: Korpus og språkteknologiske ressurser (2 vt.)

Mål

Kursets mål er å sette studenten i stand til å vurdere korpusbruk som empirisk metode for språklige problemstillinger, forstå muligheten og begrensningene av korpusbruk som vitenskapelig metode, velge søkemetode og søkekriterier for språkvitenskapelige problemstillinger, interpretere resultater av søking, konkordans og kollokasjonssøking, og forstå bidrag av informasjon fra korpus for datalingvistikken og språkteknologien, bl.a. for oppbygging av leksikalske databaser og termbaser og for disambiguering i analyse av skrift- og talespråk.

Startgrunnlag

Forprøven i språkvitenskap.

Innhold

Utvalg og bearbeiding av språkmateriale, tekstkoding, annotasjon og tagging, frekvens, søking, konkordans, kollokasjon, applikasjoner, leksikalske databaser og termbaser. Eksempler på eksisterende korpus og ressurser.

Undervisningsform

Forelesninger og øvelser på datamaskin.

Eksamen

Skriftlig prøve på 4 timer og oppgave på datamaskin.

Tverrfaglig tilbud

Denne modulen er egnet som tverrfaglig tilbud til studenter på språk- og tekstfag og humanistisk informatikk.

DASP104: Automatisk analyse av språk (5 vt.)

Mål

Målet med kurset er å sette studenten i stand til å forstå grunnleggende teknikker for prosessering av naturlig skriftspråk og til å programmere og teste små modeller for språkanalyse, særlig på syntaktisk og morfologisk nivå.

Startgrunnlag

Forprøven i språkvitenskap; DASP101.

Innhold

Kurset tar utgangspunkt i algoritmer for språkprossessering basert på søkestrategier. På dette grunnlaget behandler kurset ulike metoder for automatisk strukturell analyse på syntaktisk og morfologisk nivå. Modellene som kurset behandler inkluderer ulike typer automater og parsere.  Blant strategiene for parsing nevnes ovenfra ned og nedenfra opp, dybde-først og bredde-først, og teknikker for effektivisering, særlig kartparsing og bruk av heuristikker og statistikk.

Undervisningsform

Forelesninger og øvelser på datamaskin.

Eksamen

Skriftlig prøve på 4 timer og prøve på datamaskin på 4 timer.

Tverrfaglig tilbud

Denne modulen er egnet som tverrfaglig tilbud særlig til studenter på språkfag, informatikk, informasjonsvitenskap og humanistisk informatikk.

DASP201: Grammatikker og datalingvistiske verktøy (5 vt.)

Mål

Kurset skal sette studenten i stand til å forstå relasjonen som en formell grammatikk legger mellom setninger og strukturelle representasjoner, særlig trekkstrukturer og DAGs. Studenten skal også settes i stand til å bruke spesifikke verktøy for skriving og testing av ikke-trivielle grammatikker.

Startgrunnlag

Forprøven i språkvitenskap.

Innhold

Trekkstrukturer og DAGs for syntaktisk, semantisk og pragmatisk representasjon; forholdet mellom grammatikkregler og et trekkbasert leksikon; unifikasjonsbaserte grammatikker og parsing; LFG som er en unifikasjonsbasert grammatikkformalisme; bruk av en utviklingsplattform for komputasjonelle grammatikker av industriell størrelse basert på LFG.

Undervisningsform

Forelesninger og øvelser på datamaskin.

Eksamen

Prøve på datamaskin på 4 timer.

Tverrfaglig tilbud

Denne modulen er egnet som tverrfaglig tilbud til studenter på allmenn lingvistikk.

DASP202: Semantisk og pragmatisk prosessering (3 vt.)

Mål

Kursets hensikt er å gi en vitenskapelig innføring i prinsipper, representasjoner og algoritmer for tolkning av språk.

Startgrunnlag

Forprøven i språkvitenskap; DASP101; DASP104.  Videre anbefales DASP201 før eller samtidig med denne modulen.

Innhold

Kursets innhold omfatter i hovedsak unifikasjonsbaserte representasjoner i form av trekkstrukturer og termer, komposisjonell semantikk, tolkning av semantiske strukturer mot en database, tolkning av kvantorer og konjunksjoner, slutningsregler, disambiguering og tolkning i kontekst, og dialogsystemer som naturlig-språklig grensesnitt mot databaser.

Undervisningsform

Forelesninger, øvelser på datamaskin og veiledet oppgave.

Eksamen

Semesteroppgave i form av programmeringsoppgave etterfulgt av muntlig eksamen.

DASP203: Leksikon og ordnett (2 vt.)

Mål

...

Startgrunnlag

Grunnfag i et språkrelatert fag.  DASP201 anbefales før eller samtidig med denne modulen.

Innhold

Ord og ordformer, trekkbasert leksikon, PATR-leksikon med makroer, leksikalske arvehierarkier, semantiske nettverk, WordNet, multilinguality, ...

Undervisningsform

...

Eksamen

...

Tverrfaglig tilbud

...

DASP301: Lingvistisk og datalingvistisk vitenskapsteori (2 vt.)

Mål og innhold

Hensikten er at studenten deltar i den vitenskapsteoretiske diskusjonen om grunnlagsproblemer i lingvistikk og datalingvistikk, også i forhold til språklig kognisjon og kunstig intelligens. Sentrale spørsmål blir hva som er det empiriske grunnlaget for automatisk språktilegnelse (bl.a. korpus), hvordan datamaskiner kan simulere prosesser bak språkforståelse, språkproduksjon og språktilegnelse, og hvorvidt slik simulering svarer på vitenskapelige spørsmål i de lingvistiske og kognitive fagene.

Startgrunnlag

Forprøven i språkvitenskap; grunnfag i et språkrelatert fag.

Undervisningsform

Forelesnings- og diskusjonsseminar.

Eksamen

Skriftlig eksamen på 4 timer.

Tverrfaglig tilbud

Denne modulen er egnet som tverrfaglig tilbud særlig til studenter på språkfag og humanistisk informatikk.

DASP302: Statistisk metode (3 vt.)

Mål og innhold

Målet er å sette studenten i stand til å forstå statistikkutsagn i litteraturen, sette opp hypoteser som kan etterprøves med kvantitative metoder, velke kvantitativ metode i forhold til egen analyse og gjennomføre praktiske utprøvinger, vurdere forholdet mellom kvantitativ og kvalitativ metodikk, tolke et statistikk-resultat i forhold til en hypotese og bruke et statistikkprogram på datamaskin. Videre er målet å sette studenten i stand til å forstå bidrag av statistiske metoder til datalingvistiske metoder og språkteknologiske anvendelser, f.eks. Markov- og Hidden Markovmodeller, Kohonennettverk, osv. Pensum er på ca. 300 sider.

Startgrunnlag

Forprøven i språkvitenskap; grunnfag i et språkrelatert fag eller humanistisk informatikk.

Undervisningsform

Forelesninger og øvelser på datamaskin.

Eksamen

Eksamen på 4 timer på datamaskin.

Tverrfaglig tilbud

Denne modulen er egnet som tverrfaglig tilbud til bl.a. studenter på vei inn i et hovedfagsstudium eller doktorgradsstudium innen et språklig emne eller et annet emne innenfor humanistisk informasjonsteknologi.

DASP303: Kunstig intelligens og maskinlæring for språkmodellering (5 vt.)

Mål

Målet med kurset er å gjøre studenten kjent med modelleringsmetoder fra kunstig intelligens og maskinlæring. Studenten skal settes i stand til å forstå relevansen av KI-metoder og maskinlæring for modellering av språkprosesser innen datalingvistikk, psykolingvistikk og språkteknologi. Studenten skal lære å anvende modellering på vitenskapelige og teknologiske problemer ifm. språkprosessering. Studenten skal kunne programmere og teste modeller basert på disse metodene.

Startgrunnlag

Forprøven i språkvitenskap; DALI101.

Innhold

Kunnskapsrepresentasjon, semantiske nettverk, mønstergjenkjenning, måldrevet og datadrevet planlegging, avanserte søkestrategier, heuristikker, regelbaserte systemer, frames og arvehierarkier, constraint propagation, logikk og resolusjon, maskinell læring, nevrale nettverk, evolusjon.  Pensum er på ca. 450 sider.

Undervisningsform

Forelesning, øvelser på datamaskin og veiledet oppgave.

Eksamen

Skriftlig eksamen på 4 timer og semesteroppgave i form av programmeringsoppgave.

Tverrfaglig tilbud

Denne modulen er egnet som tverrfaglig tilbud særlig til studenter på informatikk, informasjonsvitenskap og humanistisk informatikk.

DASP304: Maskinoversettelse (5 vt.)

Mål

...

Startgrunnlag

Forprøven i språkvitenskap; grunnfag i et språkrelatert fag eller humanistisk informatikk.

Innhold

...

Undervisningsform

...

Eksamen

...

Tverrfaglig tilbud

Denne modulen er egnet som tverrfaglig tilbud særlig til studenter på språkfag og humanistisk informatikk.

DASP305: Emnekrets (5 vt.)

Mål, innhold og organisering av kurset

Mål er at det etter aktuelle behov og avhengig av tilgjengelig særkompetanse tilbys kurs om en emnekrets innenfor datalingvistikk og språkteknologi. Emnet kan være orientert mot teori, metoder og teknikker eller anvendelser.

Startgrunnlag

Forprøven i språkvitenskap; grunnfag i et språkrelatert fag; videre varierende forkunnskaper etter emnet.

Eksamen

Varierende, vanligvis semesteroppgave etterfulgt av muntlig eksamen.

Tverrfaglig tilbud

Målet er at emnet velges blant aktuelle emner som er av interesse for studenter på flere fag, særlig språkrelaterte.

DASP306: Hovedoppgave (20 vt.)

Mål

Målet er å gi studenten anledning til å utforske en betydelig datalingvistisk eller språkteknologisk problemstilling og til å formidle resultatene skriftlig og muntlig.

Innhold

Hovedoppgaven skal være et vitenskapelig arbeid innenfor et datalingvistisk eller språkteknologisk emne.  Valg av emne for hovedoppgaven må godkjennes av seksjonen. Det må falle innenfor de datalingvistiske områdene der seksjonen selv eller en ekstern partner har eller kan skaffe den nødvendige kompetanse og det nødvendige utstyr. Det skal legges opp et særpensum på ca. 400 sider som skal støtte opp rundt undersøkelsen.

Undervisningsform

I arbeidet med hovedoppgaven vil studenten få tildelt en veileder av seksjonen. Student og veileder skriver begge under en veiledningskontrakt. Undersøkelsen til hovedoppgaven kan også gjøres under et opphold utenfor seksjonen, for eksempel ved et annet universitet eller forskningssenter. I så fall kan studenten bli tildelt både en intern og en ekstern veileder.

Eksamen

  1. Skriftlig hovedoppgave. Resultatet av undersøkelsen skal fremlegges i form av et program på datamaskin og i tillegg en skriftlig fremstilling i form av en oppgave på ca. 50 sider (pluss evt. vedlegg). Oppgaven skal greie ut om programmet og dets plass innenfor det aktuelle emnet og relatere dette til pensumlitteraturen. Det stilles krav om orginalarbeid på datamaskin, til programmets ytelse, til datamaskinelle og lingvistiske teknikker i programmet, til vitenskapelig metode og til oppgavens verdi som vitenskapelig fremstilling.
  2. Offentlig presententasjon (ca. 2 timer). Studenten skal formidle hovedoppgavens vitenskapelig område, problemstilling, metode, gjennomføring, resultater og tolkning.
  3. Muntlig eksamen skal holdes etter presentasjonen.
Presentasjon og muntlig eksamen gjennomføres etter at den skriftlige oppgaven er godkjent og har en justerende rolle i forhold til bedømmelse av den skriftlige oppgaven. 

strek
Siden vedlikeholdes av webmaster@lili.uib.noOffisiell side