Norsk komputasjonell grammatikk

(NorGram)

Prosjektbeskrivelse


1. Innledning: Språkteknologi og språkressurser

Språkteknologi er ett av regjeringens satsningsområder innenfor feltet informasjonsteknologi. Forat fremtidige språkteknologiske produkter (automatisk stave- og grammatikk-kontroll, tekstsammendrag, tekstgenerering, oversettelse, taleforståelse, talesyntese, m.m.) også skal kunne behandle norsk språk, behøves en stor forsknings- og utviklingsinnsats i samarbeid mellom forskningsinstitusjoner og næringsliv. Slikt samarbeid er allerede under utvikling, bl. a. i regi av nettverket NIFST (Norsk infrastruktur for språkteknologi), der Universitetet i Bergen (Seksjon for lingvistiske fag og HIT-senteret) deltar aktivt.

En høyt prioritert oppgave i dette samarbeidet er utviklingen av gjenbrukbare språkressurser. Med språkressurser menes for eksempel tekstkorpora (store, elektronisk søkbare tekstsamlinger "tagget" med grammatisk og annen informasjon), leksikalske databaser (ordforråd som tilfredsstiller langt strengere og tildels andre krav enn vanlige utgitte ordbøker gjør, og har mange typer informasjon knyttet til det enkelte oppslag) og komputasjonelle grammatikker (formelle regelsystemer som beskriver strukturen i språkets setninger så presist at dataprogrammer kan analysere tekst ved hjelp av dem pluss et ordforråd). Slike ressurser er helt uunnværlige ved utviklingen av ulike språkteknologiske produkter, og i grunnforskningen bak dem. Tradisjonelt er ofte ressurser i miniformat blitt utviklet ad hoc innenfor det enkelte prosjekt, noe som er både uhensiktsmessig (dekningsgraden blir liten med små ressurser) og uøkonomisk (det samme arbeidet gjøres på nytt i nye prosjekter). Derfor er det idag en internasjonal satsning på utviklingen av store, gjenbrukbare språkressurser for ulike språk. Norge er kommet kortere på dette feltet enn de fleste av våre naboland, men en utvikling er igang. Prosjektet NorKompLeks (NTNU) arbeider med utviklingen av et komputasjonelt leksikon. Ved UiO utarbeides et system for automatisk tagging av ordene i et korpus (det vil si annotasjon med grammatisk informasjon om ordene). Et større korpusprosjekt i samarbeid mellom tre av våre universiteter og flere næringslivspartnere er under forberedelse. Foreløpig er det ikke igang noe prosjekt med sikte på å utvikle en gjenbrukbar norsk komputasjonell grammatikk, og det er et slikt prosjekt det søkes om her.

2. Norsk komputasjonell grammatikk (NorGram)

Formål

Formålet med prosjektet NorGram er å utvikle en gjenbrukbar komputasjonell grammatikk for norsk bokmål og nynorsk med bred empirisk dekning og sunn teoretisk basis. I løpet av de tre år prosjektsøknaden omfatter, vil viktige delmål søkes nådd. Målene kan oppsummeres slik:

  1. Definisjon av lingvistiske prinsipper for grammatikken: Spesifikasjon av grammatiske trekk innenfor det valgte teoretiske rammeverket (se nedenfor) og valg av beskrivelsesstrategier for grammatiske fenomener. (Fullført: 6 måneder fra prosjektstart.)
  2. Utvikling av prototypversjoner, med dokumentasjon, for bokmål og nynorsk, der sentrale grammatiske fenomener er dekket. (Fullført: 18 måneder fra prosjektstart.)
  3. Testing og videreutvikling av prototypene på grunnlag av korpusdata og store leksika, med sikte på versjoner som kan analysere naturlig tekst i en grad som gjør applikasjonsverdien åpenbar. Dokumentasjon av grammatikkene i form av en monografi. (Fullført: 36 måneder fra prosjektstart.)
Lingvistisk rammeverk og samarbeid med ParGram-prosjektet

I sentrale datalingvistiske forskningsmiljøer internasjonalt ser vi en konvergens mot en viss type lingvistisk rammeverk karakterisert ved unifikasjonsbaserte formalismer. Disse tillater en å formulere deklarative språkbeskrivelser i form av regler og ligninger som definerer komplekse trekkstrukturer, kombinerbare gjennom operasjonen `unifikasjon'. Den komputasjonelle fordelen ved slike rammeverk er for det første at de har velkjente formelle og komputasjonelle egenskaper, og for det annet at de grammatiske beskrivelsene utgjør egne, uavhengig modifiserbare moduler som - på grunn av deklarativiteten - lar seg kombinere med ulike analyse- og syntesealgoritmer, uten å legge sterke føringer på hvordan algoritmene bør være innrettet. Sentrale eksempler på slike lingvistiske rammeverk er leksikalsk-funksjonell grammatikk (LFG) og Head-driven Phrase Structure Grammar (HPSG). Det finnes større grammatikkprosjekter for engelsk og andre språk basert på slike teorier. NorGram har oppnådd en samarbeidsavtale med prosjektet ParGram ved Xerox Palo Alto Research Centre (PARC). Xerox PARC er et ledende datalingvistisk og språkteknologisk forskningssenter lokalisert i California, og der er det i de senere år blitt utviklet et system for utvikling av komputasjonelle grammatikker i stor skala, både for forskningsmessig og industriell anvendelse. Dette systemet, Xerox Linguistic Environment (XLE), baserer seg på den lingvistiske teorien "leksikalsk-funksjonell grammatikk" (LFG). Det er ikke identisk med Xerox' eldre Lisp-baserte LFG-system (som i mange år har vært benyttet ved Seksjon for lingvistiske fag), men bygger idémessig på det, samtidig med at det er lagt til rette for moderne programmeringsomgivelser, leksika og grammatikker av realistisk størrelse, og praktiske applikasjoner. Rundt XLE-systemet og i interaksjon med utviklerne av det eksisterer prosjektet "Parallel Grammar Project" (ParGram) i samarbeid mellom Xerox PARC, Xerox Grenoble og Universitetet i Stuttgart. I dette prosjektet er man nå godt igang med utviklingen av grammatikker i stor skala for engelsk, fransk og tysk på XLE-plattformen.

Ifølge avtalen med Xerox PARC vil prosjektet NorGram inngå som del av ParGram, og vi får full tilgang til den nevnte teknologien og de utviklede grammatikkene, samtidig med at vi beholder fulle rettigheter over det vi selv utvikler. Den eneste klausul er at Xerox skal ha anledning til å benytte de norske grammatikkene (bokmål og nynorsk) vederlagsfritt. Det bør understrekes at Xerox PARC, sammenlignet med andre tenkelige industrielle partnere for slike forskningsprosjekter, besitter usedvanlig høy datalingvistisk kompetanse, og utvilsomt vil tilføre NorGram-prosjektet betydelige faglige verdier. Blant de Xerox-baserte deltagerne i prosjektet finner vi for eksempel Martin Kay, Ronald Kaplan, Mary Dalrymple og Annie Zaenen, alle internasjonelt kjente datalingvister og lingvister - Martin Kay er en pioner på feltet.

XLE-systemet samvirker med morfologiske analysatorer basert på såkalt tonivå-morfologi. Disse har form av "finite state transducers", datastrukturer som i en effektiv form koder bøynings- og avledningsinformasjon om ordene i et språk. Slike "transducers" danner basis for meget rask analyse og syntetisering av isolerte ordformer. Xerox har allerede slike bøyningsmoduler for bokmål og nynorsk, som de selv har bekostet utviklingen av. Som et ledd i samarbeidsavtalen vil vi også få tilgang til disse modulene, inklusive regelkoden.

Vi har allerede god kompetanse i XLE-systemets LFG-formalisme, og gode kontakter med fagmiljøet ved Xerox PARC. Omfattende grammatikker for bokmål og nynorsk utviklet på XLE-plattformen vil utgjøre verdifulle språkteknologiske ressurser for norsk, både i form av selve grammatikkene, og i form av den ytterligere kompetansen som vil bli utviklet i miljøet rundt dem.

Som ledd i samarbeidsprosjektet ParGram vil det være aktuelt med deltagelse for prosjektlederen og den ansatte forskeren på prosjektmøter to ganger pr. år, ett i Palo Alto og ett i Stuttgart.

Grammatiske trekk og beskrivelsesstrategier

Innenfor rammen av XLE-systemet vil spesifikasjonen av grammatiske trekk og valget av beskrivelsesstrategier i NORGRAM være basert på to hensyn: (a) Egenskapene ved andre norske språkressurser under utvikling, og (b) de anvendelsesområdene som forutsees for de ferdige grammatikkene.

(a) Prosjektet NorKompLeks utvikler en komputasjonell leksikalsk database for norsk. Fra denne databasen skal det være mulig å derivere leksika (ordforråd) for ulike komputasjonelle applikasjoner. Analyse av tekst vil måtte bygge på en kombinasjon av grammatikk og leksikon, og det er derfor en forutsetning at de grammatiske beskrivelsene i de to komponentene benytter seg av sammenlignbare kategorier. Arbeidet med de grammatiske spesifikasjonene i NORGRAM vil derfor skje i nær kontakt med arbeidet i NorKompLeks. (b) Komputasjonelle grammatikker har mange ulike anvendelser, for eksempel som kunnskapsbase for (i) automatisk grammatisk tagging av tekstkorpora; (ii) automatisk stavekontroll og grammatikk-kontroll; (iii) analyse av tekst for tekstsammendrag eller informasjonssøkning; (iv) automatisk generering av tekst; (v) automatisk oversettelse. De ulike anvendelsesområdene stiller ulike krav til grammatikkene. Det vil være et formål at den utviklede komputasjonelle grammatikken skal la seg kompilere til ulike formater tilpasset de ulike anvendelsesområdene. Anvendelse (i) forutsetter ikke omfattende grammatisk analyse, og til dette formål bruker flere miljøer en grammatikkformalisme kalt "Constraint Grammar". Denne anvendelsen er kanskje den minst aktuelle som formål for NORGRAM. Alle de øvrige er derimot aktuelle. Særlig anvendelsene (iii)-(v) forutsetter at grammatikkene ikke bare kan gi utførlige analyser av komplekse syntaktiske konstruksjoner, men at de også kan gi semantiske analyser som muliggjør derivasjon av semantiske representasjoner av fraser og setninger. Det vil være et viktig arbeid i en tidlig fase i prosjektet å knesette prinsipper for beskrivelsen av slike fenomener i grammatikken.

Korpus- og leksikonbasert testing

Prototypversjonene av grammatikkene skal dekke alle hovedtypene av syntaktiske konstruksjoner i norsk. Overlappende med prosjektets prototyp-fase, altså innen 18 måneder, begynner testing av grammatikkene mot korpusdata. Det finnes allerede elektroniske tekstbaser som kan brukes i arbeidet (bl.a. avistekster), men det er grunn til å tro at tilgangen til tekstkorpora i tagget og velstrukturert form vil bli betydelig forbedret i overskuelig fremtid (jfr. f.eks. det store korpusprosjektet som er under planlegning etter initiativ fra Torbjørn Svendsen og Torbjørn Nordgård ved NTNU). Disse tekstressursene vil muliggjøre empiriske studier som kan øke grammatikkenes dekningsgrad betydelig. Valg av tekstkorpora vil også skje i samråd med samarbeidspartnerne innenfor ParGram-prosjektet. Korporaene vil gjøre det mulig å studere grammatiske konstruksjoners frekvens, slik at man kan sørge for at frekvente konstruksjoner analyseres særlig effektivt. De vil videre blant annet bli benyttet til studier av verbs komplementstruktur - et syntaktisk fenomen som erfaringsmessig krever brede empiriske studier hvis man vil ha dekkende beskrivelser - og til generell testing av grammatikkenes yteevne overfor naturlig tekst.

Grammatikkene skal også testes mot større leksikonressurser enn de leksikaene prototypversjonene vil omfatte. Erfaring fra lignende prosjekter viser at det er en vesensforskjell mellom å teste en grammatikk med et begrenset ad hoc-leksikon og å teste den med et leksikon av realistisk størrelse. Sistnevnte type leksikon bringer for dagen en stor mengde problemer som ellers ville forbli uoppdaget. Det komputasjonelle leksikonet i NorKompLex-prosjektet vil her være et viktig materiale.

Grammatikkene vil bli dokumentert i en monografi.

Forskerstilling

Det søkes om en forskerstilling i forbindelse med prosjektet. En kvalifisert kandidat til en slik stilling er dr. art. Victoria Rosén. Victoria Rosén disputerte for graden dr. art. i april 1998 på avhandlingen Topics and Empty Pronouns in Vietnamese. Avhandlingen utforsker et utvalg grammatiske fenomener i vietnamesisk av interesse for almen grammatisk teori, og gir en formell analyse av dem innenfor teorien leksikalsk-funksjonell grammatikk (LFG). Analysene er implementert i et datamaskinelt grammatikkutviklingssystem (Grammar-Writer's Workbench). Rosén har således høy kompetanse i syntaktisk teori, og doktorgradsprosjektet har gitt henne erfaring i utvikling av formelle grammatikker og datamaskinell språkanalyse (parsing) på grunnlag av dem. Denne erfaringen har hun utvidet gjennom sitt senere arbeid med en annen grammatikk-formalisme på en annen plattform i det EU-finansierte prosjektet SCARRIE, som har som formål å utvikle "intelligente" korrekturlesningsprogrammer for nordiske språk. Som ansatt i dette prosjektet har Rosén arbeidet med implementering av norske grammatikk-fragmenter for systemet. Dette arbeidet ønsker vi skal bli videreført i prosjektet Norsk komputasjonell grammatikk.

Miljøet

Seksjon for lingvistiske fag utgjør en god faglig ramme rundt et slikt prosjekt. Faget datalingvistikk studeres her opp til hovedfagsnivå. Professorene Koenraad de Smedt og Helge Dyvik arbeider begge med datamaskinell språkanalyse og grammatikkutvikling i sin forskning, de Smedt i forbindelse med tekstgenerering og automatisk korrekturlesning, Dyvik i forbindelse med automatisk oversettelse. Flere andre ansatte og stipendiater har høy kompetanse innenfor formell syntaks. Det finnes allerede et antall datamaskinelle plattformer for grammatikkutvikling ved seksjonen:

Grammar-Writer's Workbench (GWB), et avansert redskap som tillater utvikling av LFG-grammatikker, og som kan utføre analyse av tekst i henhold til de utviklede grammatikkene. Dette systemet er en forløper for XLE-systemet, som prosjektet skal bruke.

D-PATR, omgivelser som tillater utvikling og testing av grammatikker formulert i en basal unifikasjonsformalisme.

PONS, et eksperimentelt oversettelsessystem utviklet av prof. Dyvik, som benytter en videreutviklet versjon av D-PATR, og dessuten muliggjør generering (og ikke bare analyse) av setninger.

GramComp, et system som tillater utvikling av grammatikker i term-unifikasjonsformat, brukt i prosjektet SCARRIE med sikte på å utvikle automatisk korrekturlesning for norsk.

ALEP, en grammatikkplattform utviklet i et større EU-finansiert prosjekt, i samarbeid mellom flere land. Også denne benytter en versjon av unifikasjonsbasert grammatikk.

HIT-senteret ved Universitetet i Bergen utgjør et miljø for utvikling av datamaskinelle språkressurser, med deltagelse i korpus- og leksikonprosjekter. Prosjektet NorGram vil knytte seg nært til disse aktivitetene.

Bergen, den 19. april 1999

Helge Dyvik
Professor


Noter:

"Det er lagt føringer på Forskningsrådet i oppfølgingen av næringsrettet IT-plan på områdene multimedia og språkteknologi. Disse områdene skal også prioriteres i 1999." Næringsminister Lars Sponheim, 5. oktober 1998.

2   F.eks. Parallel Grammar Project ved Xerox PARC, i Grenoble og i Stuttgart, og English Resource Grammar ved Stanford, i Saarbrücken og i Korea.