UiB
: HF : LiLi
: SLF
Forslag til Datalingvistisk og Språkteknologisk studieretning
(DaSp)
Om datalingvistikk og språkteknologi
Datalingvistikk er vitenskapen om menneskelig språk og språkbruk,
utforsket ved hjelp av teorier og modeller med røtter i informatikk,
logikk, matematisk lingvistikk og informasjonsteoretiske prinsipper.
Metodene og modellene er basert på statistikk (ofte korpusbasert),
simulering, kunnskapsrepresentasjon, regelbaserte teknikker, søking,
læring og optimalisering - mange lånt fra kunstig intelligens.
Det som skiller datalingvistikk fra teoretisk (allmenn) lingvistikk, som
også utforsker menneskelig språk, er først og fremst
at datalingvistikken konsentrerer seg om prosesser, særlig analyse-
og synteseprosedyrer som kan tolke og produsere språk. Datalingvistikk
er et grunnforskningsfelt som både kan gi psykolingvistisk innsikt
i hvordan mennesket behandler språk, og kan gi grunnlag for språkteknologiske
anvendelser. Datalingvistikk går hånd i hånd med språkteknologi,
som har en rekke anvendelsesområder, f.eks. i naturlig-språklig
kommunikasjon mellom menneske og maskin (i forbindelse med databaser og
ekspertsystemer), i informasjonsøkningssystemer, tekstbehandlingssystemer,
systemer for automatisert oversettelse, språkpedagogiske hjelpemidler
og hjelpemidler for funksjonshemmede.
Organisering av studieretningen
Datalingvistisk og språkteknologisk studieretning omfatter
Datalingvistikk grunnfag, Språkteknologi grunnfag, Datalingvistikk
og språkteknologi mellomfag og Datalingvistikk og språkteknologi
hovedfag. Begge grunnfag gir tilgang til mellomfaget. Mellomfaget
gir tilgang til hovedfaget. Studieretningen er modulisert slik at
utvalgte emner utgjør spesifikke flerfaglige tilbud, som særlig
bidrar med språkvitenskapelige EDB-baserte metoder rettet mot språkfagene
og humanistisk informatikk.
Datalingvistikk grunnfag
Organisering av studiet
Datalingvistikk grunnfag er et studium over to semestre og regnes
som 20 vt. Studiet inkluderer 6 vekttall fra Lingvistikk delfag
i form av fritt valg mellom LING101, LING102, LING103, LING104 og LING105.
Selv om valget er fritt, anbefales særlig LING101, LING102 og LING103.
Studiets formål og innhold
Grunnfaget skal gi kandidatene et lingvistisk grunnlag, et datafaglig grunnlag
og en innføring i bruk av vitenskapelige komputasjonelle metoder
på språklig materiale. Grunnfaget tilbyr særlig
teori om formelle metoder i lingvistikken, teori og praksis i datalingvistiske
og språkteknologiske metoder, korpuslingvistikk og bruk av EDB i
språkvitenskapelig sammenheng. Det legges stor vekt på praktiske
øvelser, der studentene skal oppnå en grunnleggende ferdighet
i programmering for å skrive og modifisere enklere programmer for
språkprosessering og skal lære å bruke korpuslingvistiske
verktøy.
Startgrunnlag
Det kreves avlagt Forprøve i språkvitenskap. Det anbefales
å ta et språkfag eller et datafag før man begynner på
grunnfaget. Det er en fordel om man kan bruke datamaskin og spesielt om
man behersker tastaturet.
Undervisning og moduler
For å få godkjent fullt grunnfag må følgende moduler
være bestått (totalt 20 vt.):
-
6 vekttall valgfritt mellom LING101, LING102, LING103, LING104, LING105
(se Lingvistikk delfag)
-
DASP101: Programmering og søkestrategier (4 vt.)
-
DASP102: Formelle språk og automatteori (3 vt.)
-
DASP103: Korpus og språkteknologiske ressurser (2 vt.)
-
DASP104: Automatisk analyse av språk (5 vt.)
Datalingvistikk og språkteknologi mellomfag
Organisering av studiet og startgrunnlag
Datalingvistikk og språkteknologi mellomfag bygger på
Datalingvistikk grunnfag (20 vt.) eller Språkteknologi
grunnfag (20 vt.). De resterende 10 vekttall tas i form av modulene
beskrevet nedenfor som utgjør et studium over ett semester.
Studiets formål og innhold
Mellomfaget skal gi studenten en innføring i mer avanserte emner
innen datalingvistikk og språkteknologi. Mellomfaget vil kvalifisere
studenten for mer selvstendig deltagelse i datalingvistisk forskning og
språkteknologisk utvikling. Mellomfaget kvalifiserer også
for opptak til Datalingvistikk og språkteknologi hovedfag.
Utover modulene fra grunnfag omfatter studiet særlig datalingvistiske
grammatikker, leksikon, og semantisk og pragmatisk prosessering. Det legges
stor vekt på praktiske øvelser, der studentene skal lære
å bruke datalingvistiske og språkteknologiske verktøy
og skal utforme et litt større system for språkprosessering.
Undervisning og moduler
For å få godkjent fullt mellomfag må følgende
moduler være bestått (totalt 30 vt.):
-
20 vekttall fra Datalingvistikk grunnfag eller Språkteknologi
grunnfag (ikke-overlappende).
-
DASP201: Grammatikker og datalingvistiske verktøy (5 vt.)
-
DASP202: Semantisk og pragmatisk prosessering (3 vt.)
-
DASP203: Leksikon og ordnett (2 vt.)
Datalingvistikk og språkteknologi hovedfag
Organisering av studiet og startgrunnlag
Datalingvistikk og språkteknologi hovedfag forutsetter bestått
Datalingvistikk
og språkteknologi mellomfag. Studiet skal normalt ta fire semestre
og regnes som 40 vt. Hovedfaget inneholder en viss valgfrihet som
tillater studenten å orientere seg noe mer i teoretisk eller teknologisk
retning, og gir mulighet for å inkludere ulike tverrfaglige perspektiv.
Studiets formål og innhold
Hovedfaget skal gi studenten en grundig fordypning i utvalgte avanserte
emner i datalingvistikk og språkteknologi, særlig maskinoversettelse
og kunstig intelligens og maskinlæring ifm. språkmodellering.
Det tilbys vitenskapsteori og metode som skaffer et viktig grunnlag for
forskningskompetanse. Halvparten av hovedfaget består av en
hovedoppgave, som skal skrives med utgangspunkt i et hovedfagsprosjekt.
Som regel er hovedfagsprosjektet tilknyttet et forsknings- eller utviklingsmiljø
og involverer arbeid med datalingvistiske eller språkteknologiske
systemer.
Undervisning og moduler
For å få godkjent fullt hovedfag må følgende moduler
være bestått (totalt 40 vt.):
-
DASP301: Datalingvistisk og språkteknologisk vitenskapsteori (2 vt.)
-
DASP302: Statistisk metode (3 vt.)
-
DASP303: Kunstig intelligens og maskinlæring for språkmodellering
(5 vt.)
-
DASP304: Maskinoversettelse (5 vt.)
-
DASP305: Emnekrets (5 vt.) eller en annen modul (5 vt.) fra en annen studieretning
eller en annen institusjon etter godkjenning av Seksjon for lingvistiske
fag.
-
DASP306: Hovedoppgave (20 vt.)
Beskrivelse av modulene:
Generelt om alle modulene:
-
Pensumlistene fås på instituttets nettsider eller ved henvendelse
til instituttet. Pensumets omfang er som regel mellom 50 og 100 sider
per vekttall og kan inkludere EDB-materialer tilgjengelig via nettet.
-
Om ikke noe annet er stipulert skal moduler eller fag nevnt under startgrunnlagg
være avlagt og bestått, eller likeverdig kompetanse skal kunne
dokumenteres.
DASP101: Programmering og søkestrategier (4 vt.)
Mål
Kursets mål er å gi studenten et datafaglig grunnlag i datastrukturer
og algoritmer, særlig mht. søkestrategier. Hovedmålet
er å skaffe et metodegrunnlag for videre kurs i datalingvistikk og
språkteknologi. Videre er målet å skaffe praktiske
ferdigheter i programmering som kan anvendes innenfor et vidt spekter av
EDB-problemstillinger.
Startgrunnlag
Det er en fordel om studenten har noe erfaring i praktisk bruk av datamaskinen
og spesielt at man behersker tastaturet.
Innhold
Kurset tar utgangspunkt i datastrukturer og algoritmer. Særlig behandles
datastrukturer for representasjon av språk (lister, symboler, strenger,
tegn) og algoritmer for søkestrategier (dybde først, bredde
først, osv.) som er kurante i datalingvistisk og språkteknologisk
programmering. Det legges opp til en gjennomgående funksjonell
og rekursiv programmeringsstil. Videre legges det vekt på forskjellen
mellom programutvikling ovenfra ned og nedenfra opp. I utgangspunkt
brukes samme programmeringsspråk som på DASP104. Studenten
skal lære effektiv bruk av en programmeringsomgivelse på datamaskin
for skriving og testing av programmer.
Undervisningsform
Forelesninger og øvelser på datamaskin.
Eksamen
Prøve på 4 timer på datamaskin.
Tverrfaglig tilbud
Denne modulen er egnet som et generelt tverrfaglig tilbud.
DASP102: Formelle språk og automatteori (3 vt.)
Mål
Hensikten med kurset er å gi studenten en innføring i formelle
tilnærmingsmåter i språkvitenskap. Dette skal gi studenten
et grunnlag for å lese faglitteratur i både formell lingvistikk,
datalingvistikk og språkteknologi.
Startgrunnlag
Forprøven i språkvitenskap.
Innhold
Innholdet omfatter logikk, formelle språk, grammatikker og automater,
Chomsky-hierarkiet, finitte tilstandsautomater, regulære språk
og type 3 grammatikker, stablautomater, kontekstfrie grammatikker og språk,
Turingmaskiner, kontekstsensitive språk, språk mellom kontekstfrie
og kontekstsensitive.
Undervisningsform
Forelesninger og øvelser.
Eksamen
Skriftlig prøve på 4 timer.
Tverrfaglig tilbud
Denne modulen er egnet som tverrfaglig tilbud til studenter på informatikk
og humanistisk informatikk.
DASP103: Korpus og språkteknologiske ressurser (2 vt.)
Mål
Kursets mål er å sette studenten i stand til å vurdere
korpusbruk som empirisk metode for språklige problemstillinger, forstå
muligheten og begrensningene av korpusbruk som vitenskapelig metode, velge
søkemetode og søkekriterier for språkvitenskapelige
problemstillinger, interpretere resultater av søking, konkordans
og kollokasjonssøking, og forstå bidrag av informasjon fra
korpus for datalingvistikken og språkteknologien, bl.a. for oppbygging
av leksikalske databaser og termbaser og for disambiguering i analyse av
skrift- og talespråk.
Startgrunnlag
Forprøven i språkvitenskap.
Innhold
Utvalg og bearbeiding av språkmateriale, tekstkoding, annotasjon
og tagging, frekvens, søking, konkordans, kollokasjon, applikasjoner,
leksikalske databaser og termbaser. Eksempler på eksisterende korpus
og ressurser.
Undervisningsform
Forelesninger og øvelser på datamaskin.
Eksamen
Skriftlig prøve på 4 timer og oppgave på datamaskin.
Tverrfaglig tilbud
Denne modulen er egnet som tverrfaglig tilbud til studenter på språk-
og tekstfag og humanistisk informatikk.
DASP104: Automatisk analyse av språk (5 vt.)
Mål
Målet med kurset er å sette studenten i stand til å forstå
grunnleggende teknikker for prosessering av naturlig skriftspråk
og til å programmere og teste små modeller for språkanalyse,
særlig på syntaktisk og morfologisk nivå.
Startgrunnlag
Forprøven i språkvitenskap; DASP101.
Innhold
Kurset tar utgangspunkt i algoritmer for språkprossessering basert
på søkestrategier. På dette grunnlaget behandler kurset
ulike metoder for automatisk strukturell analyse på syntaktisk og
morfologisk nivå. Modellene som kurset behandler inkluderer ulike
typer automater og parsere. Blant strategiene for parsing nevnes
ovenfra ned og nedenfra opp, dybde-først og bredde-først,
og teknikker for effektivisering, særlig kartparsing og bruk av heuristikker
og statistikk.
Undervisningsform
Forelesninger og øvelser på datamaskin.
Eksamen
Skriftlig prøve på 4 timer og prøve på datamaskin
på 4 timer.
Tverrfaglig tilbud
Denne modulen er egnet som tverrfaglig tilbud særlig til studenter
på språkfag, informatikk, informasjonsvitenskap og humanistisk
informatikk.
DASP201: Grammatikker og datalingvistiske verktøy (5 vt.)
Mål
Kurset skal sette studenten i stand til å forstå relasjonen
som en formell grammatikk legger mellom setninger og strukturelle representasjoner,
særlig trekkstrukturer og DAGs. Studenten skal også settes
i stand til å bruke spesifikke verktøy for skriving og testing
av ikke-trivielle grammatikker.
Startgrunnlag
Forprøven i språkvitenskap.
Innhold
Trekkstrukturer og DAGs for syntaktisk, semantisk og pragmatisk representasjon;
forholdet mellom grammatikkregler og et trekkbasert leksikon; unifikasjonsbaserte
grammatikker og parsing; LFG som er en unifikasjonsbasert grammatikkformalisme;
bruk av en utviklingsplattform for komputasjonelle grammatikker av industriell
størrelse basert på LFG.
Undervisningsform
Forelesninger og øvelser på datamaskin.
Eksamen
Prøve på datamaskin på 4 timer.
Tverrfaglig tilbud
Denne modulen er egnet som tverrfaglig tilbud til studenter på allmenn
lingvistikk.
DASP202: Semantisk og pragmatisk prosessering (3 vt.)
Mål
Kursets hensikt er å gi en vitenskapelig innføring i prinsipper,
representasjoner og algoritmer for tolkning av språk.
Startgrunnlag
Forprøven i språkvitenskap; DASP101; DASP104.
Videre anbefales DASP201 før eller samtidig med denne modulen.
Innhold
Kursets innhold omfatter i hovedsak unifikasjonsbaserte representasjoner
i form av trekkstrukturer og termer, komposisjonell semantikk, tolkning
av semantiske strukturer mot en database, tolkning av kvantorer og konjunksjoner,
slutningsregler, disambiguering og tolkning i kontekst, og dialogsystemer
som naturlig-språklig grensesnitt mot databaser.
Undervisningsform
Forelesninger, øvelser på datamaskin og veiledet oppgave.
Eksamen
Semesteroppgave i form av programmeringsoppgave etterfulgt av muntlig eksamen.
DASP203: Leksikon og ordnett (2 vt.)
Mål
...
Startgrunnlag
Grunnfag i et språkrelatert fag. DASP201 anbefales før
eller samtidig med denne modulen.
Innhold
Ord og ordformer, trekkbasert leksikon, PATR-leksikon med makroer, leksikalske
arvehierarkier, semantiske nettverk, WordNet, multilinguality, ...
Undervisningsform
...
Eksamen
...
Tverrfaglig tilbud
...
DASP301: Lingvistisk og datalingvistisk vitenskapsteori (2 vt.)
Mål og innhold
Hensikten er at studenten deltar i den vitenskapsteoretiske diskusjonen
om grunnlagsproblemer i lingvistikk og datalingvistikk, også i forhold
til språklig kognisjon og kunstig intelligens. Sentrale spørsmål
blir hva som er det empiriske grunnlaget for automatisk språktilegnelse
(bl.a. korpus), hvordan datamaskiner kan simulere prosesser bak språkforståelse,
språkproduksjon og språktilegnelse, og hvorvidt slik simulering
svarer på vitenskapelige spørsmål i de lingvistiske
og kognitive fagene.
Startgrunnlag
Forprøven i språkvitenskap; grunnfag i et språkrelatert
fag.
Undervisningsform
Forelesnings- og diskusjonsseminar.
Eksamen
Skriftlig eksamen på 4 timer.
Tverrfaglig tilbud
Denne modulen er egnet som tverrfaglig tilbud særlig til studenter
på språkfag og humanistisk informatikk.
DASP302: Statistisk metode (3 vt.)
Mål og innhold
Målet er å sette studenten i stand til å forstå
statistikkutsagn i litteraturen, sette opp hypoteser som kan etterprøves
med kvantitative metoder, velke kvantitativ metode i forhold til egen analyse
og gjennomføre praktiske utprøvinger, vurdere forholdet mellom
kvantitativ og kvalitativ metodikk, tolke et statistikk-resultat i forhold
til en hypotese og bruke et statistikkprogram på datamaskin. Videre
er målet å sette studenten i stand til å forstå
bidrag av statistiske metoder til datalingvistiske metoder og språkteknologiske
anvendelser, f.eks. Markov- og Hidden Markovmodeller, Kohonennettverk,
osv. Pensum er på ca. 300 sider.
Startgrunnlag
Forprøven i språkvitenskap; grunnfag i et språkrelatert
fag eller humanistisk informatikk.
Undervisningsform
Forelesninger og øvelser på datamaskin.
Eksamen
Eksamen på 4 timer på datamaskin.
Tverrfaglig tilbud
Denne modulen er egnet som tverrfaglig tilbud til bl.a. studenter på
vei inn i et hovedfagsstudium eller doktorgradsstudium innen et språklig
emne eller et annet emne innenfor humanistisk informasjonsteknologi.
DASP303: Kunstig intelligens og maskinlæring for språkmodellering
(5 vt.)
Mål
Målet med kurset er å gjøre studenten kjent med modelleringsmetoder
fra kunstig intelligens og maskinlæring. Studenten skal settes i
stand til å forstå relevansen av KI-metoder og maskinlæring
for modellering av språkprosesser innen datalingvistikk, psykolingvistikk
og språkteknologi. Studenten skal lære å anvende modellering
på vitenskapelige og teknologiske problemer ifm. språkprosessering.
Studenten skal kunne programmere og teste modeller basert på disse
metodene.
Startgrunnlag
Forprøven i språkvitenskap; DALI101.
Innhold
Kunnskapsrepresentasjon, semantiske nettverk, mønstergjenkjenning,
måldrevet og datadrevet planlegging, avanserte søkestrategier,
heuristikker, regelbaserte systemer, frames og arvehierarkier, constraint
propagation, logikk og resolusjon, maskinell læring, nevrale nettverk,
evolusjon. Pensum er på ca. 450 sider.
Undervisningsform
Forelesning, øvelser på datamaskin og veiledet oppgave.
Eksamen
Skriftlig eksamen på 4 timer og semesteroppgave i form av programmeringsoppgave.
Tverrfaglig tilbud
Denne modulen er egnet som tverrfaglig tilbud særlig til studenter
på informatikk, informasjonsvitenskap og humanistisk informatikk.
DASP304: Maskinoversettelse (5 vt.)
Mål
...
Startgrunnlag
Forprøven i språkvitenskap; grunnfag i et språkrelatert
fag eller humanistisk informatikk.
Innhold
...
Undervisningsform
...
Eksamen
...
Tverrfaglig tilbud
Denne modulen er egnet som tverrfaglig tilbud særlig til studenter
på språkfag og humanistisk informatikk.
DASP305: Emnekrets (5 vt.)
Mål, innhold og organisering av kurset
Mål er at det etter aktuelle behov og avhengig av tilgjengelig særkompetanse
tilbys kurs om en emnekrets innenfor datalingvistikk og språkteknologi.
Emnet kan være orientert mot teori, metoder og teknikker eller anvendelser.
Startgrunnlag
Forprøven i språkvitenskap; grunnfag i et språkrelatert
fag; videre varierende forkunnskaper etter emnet.
Eksamen
Varierende, vanligvis semesteroppgave etterfulgt av muntlig eksamen.
Tverrfaglig tilbud
Målet er at emnet velges blant aktuelle emner som er av interesse
for studenter på flere fag, særlig språkrelaterte.
DASP306: Hovedoppgave (20 vt.)
Mål
Målet er å gi studenten anledning til å utforske en betydelig
datalingvistisk eller språkteknologisk problemstilling og til å
formidle resultatene skriftlig og muntlig.
Innhold
Hovedoppgaven skal være et vitenskapelig arbeid innenfor et datalingvistisk
eller språkteknologisk emne. Valg av emne for hovedoppgaven
må godkjennes av seksjonen. Det må falle innenfor de datalingvistiske
områdene der seksjonen selv eller en ekstern partner har eller kan
skaffe den nødvendige kompetanse og det nødvendige utstyr.
Det skal legges opp et særpensum på ca. 400 sider som skal
støtte opp rundt undersøkelsen.
Undervisningsform
I arbeidet med hovedoppgaven vil studenten få tildelt en veileder
av seksjonen. Student og veileder skriver begge under en veiledningskontrakt.
Undersøkelsen til hovedoppgaven kan også gjøres under
et opphold utenfor seksjonen, for eksempel ved et annet universitet eller
forskningssenter. I så fall kan studenten bli tildelt både
en intern og en ekstern veileder.
Eksamen
-
Skriftlig hovedoppgave. Resultatet av undersøkelsen skal fremlegges
i form av et program på datamaskin og i tillegg en skriftlig fremstilling
i form av en oppgave på ca. 50 sider (pluss evt. vedlegg). Oppgaven
skal greie ut om programmet og dets plass innenfor det aktuelle emnet og
relatere dette til pensumlitteraturen. Det stilles krav om orginalarbeid
på datamaskin, til programmets ytelse, til datamaskinelle og lingvistiske
teknikker i programmet, til vitenskapelig metode og til oppgavens verdi
som vitenskapelig fremstilling.
-
Offentlig presententasjon (ca. 2 timer). Studenten skal formidle hovedoppgavens
vitenskapelig område, problemstilling, metode, gjennomføring,
resultater og tolkning.
-
Muntlig eksamen skal holdes etter presentasjonen.
Presentasjon og muntlig eksamen gjennomføres etter at den skriftlige
oppgaven er godkjent og har en justerende rolle i forhold til bedømmelse
av den skriftlige oppgaven.