Fra parallellkorpus til ordnett

Prosjektbeskrivelse








1. Bakgrunn

Ordnett (semantiske nett, 'word nets', 'concept nets') er en språkteknologisk ressurs av stadig økende betydning. Et ordnett er en database over ord der ordenes ulike betydninger er utskilt, og der ulike semantiske relasjoner mellom ord er markert, for eksempel hyponymi/hyperonymi, synonymi m.m. Et slikt ordnett gjør det således mulig å finne ords over- og underbegreper (f.eks. at en hund er et dyr), og å finne nær-synonymer (f.eks. at et 'selskap' også kan kalles en 'bedrift'), med mer. Ordnett har flere språkteknologiske anvendelser. De tillater:

Utvikling av ordnett for ulike språk er en høyt prioritert forskningsoppgave internasjonalt. Det amerikanske WordNet ved Princeton grupperer engelske ord av ulike ordklasser i synonymi-sett rundt underliggende felles begreper, og inneholder ulike typer semantiske lenker mellom slike sett. Denne ressursen blir mye brukt i språkteknologisk forskning og utvikling over hele verden. EuroWordNet var et EU-prosjekt med sikte på å utvikle lignende ordnett for ulike europeiske språk. I Sverige (Lund) finnes et prosjekt for utvikling av et svensk ordnett. Videre finnes et forskernettverk (finansiert av Nordisk ministerråds nye språkteknologiprogram), "Språkteknlogi og informasjonssøkning i Norden" (SPINN), med deltagelse av en rekke forskere i Norge, Sverige og Danmark, med sikte på å utvikle semantisk strukturerte flerspråklige leksikonressurser for nordiske språk.
    Et betydelig problem ved utviklingen av ordnett av realistisk størrelse er at oppgaven å kode semantiske forbindelser innenfor et helt ordforråd nærmest er uoverkommelig stor, hvis kodingen skal skje manuelt. Dessuten blir manuell koding, utført av ulike kodere og basert på kodernes semantiske intuisjoner, lett inkonsekvent og usikker. Dertil er ikke semantiske relasjoner mellom ord gitt en gang for alle; i det minste varierer de mellom ulike teksttyper. Alt dette tilsier at det er sterkt ønskelig å utvikle metoder for å avlede semantiske nettverk automatisk fra språklige data.
 
 

2. Dyviks metode: "Semantiske speil"

Helge Dyvik har utviklet en metode for å avlede semantiske nettverk i form av lattice-strukturer automatisk fra data hentet fra parallellkorpora (se Dyvik 1998). Parallellkorpora er tekstsamlinger bestående av originaler og oversettelser fra to eller flere språk, der originalene og deres oversettelser er parallellstilt ("aligned") på setningsnivå, eller i sjeldnere tilfeller også på ordnivå. Søk på ord i det ene språket i slike korpora gir forekomstene i kombinasjon med deres oversettelser i det andre språket. Ord og uttrykk kan således sorteres etter måten de er oversatt på. Parallellkorpora er derfor en rik kilde til semantisk informasjon.
    Resultatene av Dyviks pilotstudier tyder på at denne informasjonen kan utnyttes ved hjelp av de formelle redskapene han har utviklet, blant annet til arbeid med oppbygging av semantiske nett. Metoden tar utgangspunkt i at ord (og eventuelt andre uttrykk) i hvert språk registreres med settene av sine mulige oversettelser. Disse settene vil overlappe på ulike måter, og på grunnlag av disse overlappingsmønstrene kan man blant annet nærme seg et plausibelt skille mellom flertydighet og vaghet. For hver utskilte betydning kan man videre automatisk avlede semantiske representasjoner i form av trekkstrukturer (mengder av "semantiske" trekk som assosieres med den enkelte ordbetydning, der hvert trekk konstrueres algoritmisk på grunnlag av oversettelsesrelasjonene), slik at beslektede betydninger kommer til å dele trekk, desto flere trekk jo nærmere slektskap. Disse trekkstrukturene uttrykker da både oversettelsesrelasjoner mellom språkene og semantiske relasjoner mellom ordene innenfor hvert språk: Settet av trekkstrukturer, og dermed av ordbetydninger, utgjør en delvis ordnet mengde, ordnet etter inklusjonsforhold mellom trekkstrukturene, og denne delvise ordningen uttrykker hyponymi/hyperonymi-relasjoner mellom de klassifiserte ordbetydningene.
    Et enkelt eksempel kan illustrere idéen: Settet av mulige oversettelser av 'snill' viser seg å være en undermengde av settet av mulige oversettelser av 'god'. Dette medfører at 'god' automatisk får en undermengde av 'snill's trekk, og at 'snill' dermed kommer ut som et hyponym (et underbegrep) til 'god'. Den partielt ordnede mengden av ordbetydninger kan utvides til en semilattice ved at interseksjoner av de ulike trekkstrukturene også inkluderes som "virtuelle betydninger". Slike "virtuelle betydninger", representert som X-noder i eksemplene nedenfor, blir dermed ko-hyperonymer for betydninger med overlappende trekkstrukturer som ikke selv står i et hyperonym/hyponym-forhold. Pilotstudiene tyder på at ordbetydninger i en slik semilattice-struktur, som kan fremstilles som en graf, blir plausibelt gruppert etter semantisk slektskap; se eksempler nedenfor.
    I prosjektet tas det sikte på å etterprøve dette i større skala. Pilotstudiene skjer på grunnlag av English-Norwegian Parallel Corpus (ENPC), utviklet av prof. Stig Johansson og medarbeidere i Oslo og Bergen. Algoritmer for automatisk derivasjon av semilattice-strukturer fra ekserperte ord med deres oversettelser er implementert av Dyvik i Lisp. ENPC er parallellstilt på setningsnivå, ikke på ordnivå. Dette innebærer at ekserpering av det enkelte ords mulige oversettelser for øyeblikket må skje manuelt, noe som igjen legger betydelige begrensninger på omfanget av det hittil ekserperte materialet.
    Det bør understrekes at metoden ikke tillater oss å derivere alle typer semantisk informasjon som man ønsker å representere i ordnett. I tillegg til betydningslikhets- og hyponymi-relasjoner, som metoden kan finne, representerer ordnett gjerne også antonymirelasjoner, altså motsetningsrelasjoner som god ? dårlig. Slike relasjoner lar seg neppe uten videre avlede av oversettelseskorpora.
    Grafene nedenfor er utsnitt av komplekse semilatticer derivert i pilotprosjektet. De er algoritmisk avledet av de ekserperte oversettelses-forbindelsene fra ENPC slik det er beskrevet ovenfor, altså uten medvirkning fra en menneskelig analysator. X-nodene representerer de "virtuelle ordene", med interseksjonen av sine døtres semantiske trekk. Tallene etter ordene ("effektiv2" osv.) nummererer betydninger; ulike betydninger av samme ord havner i ulike latticer. Intuitivt skal betydninger høyt oppe i grafene (med få trekk) være mer generelle enn betydninger langt nede i grafene (med flere trekk), og en betydning A dominert av en betydning B skal intuitivt være et hyponym til B. Betydninger med relativt lave felles dominerende noder skal intuitivt være relativt nær beslektede.
 


 
 


 
 


 
 


 
 

Vi vil ikke her bruke plass på utførlige kommentarer til grafene, men et par ting er verd å observere ved siste graf: Den semantiske ambivalensen i selskap kommer til uttrykk i at selskap2 er dominert av to noder, X3 og X8. X3 er i sin tur relatert til betydningene firma2, fabrikk2 og bedrift1, mens X8 er relatert til gruppe2 og parti2. Ambivalensen i lag2 kommer til uttrykk på lignende måte. Ambivalensene kommer ut som nyanser innenfor samme semantiske felt, og ikke som kontrastiv flertydighet - som ville ha ledet til separate latticer - som en automatisk konsekvens av at det finnes mer enn ett ord med lignende ambivalens (selskap,lag  og det engelske company). Kontrastiv flertydighet, som i tak = 'hustopp' vs. tak = 'grep', er typisk en idiosynkratisk egenskap ved enkeltord (flere ord deler neppe samme ambivalens), og metoden medfører at slik flertydighet dermed fører til separate betydninger i hver sin grafstruktur.
 

3. Mål og deloppgaver

Hovedmål
Prosjektets hovedmål er å videreutvikle den omtalte metoden og anvende den i betydelig større skala på korpuset ENPC (som gjennom "word alignment" skal muliggjøre automatisk ekserpering), og slik utprøve metodens muligheter som et grunnlag for delvis automatisk utvikling av ordnett.

Delmål 1
En slik anvendelse av metoden i større skala forutsetter at korpus er parallellstilt på ord-nivå ("word-aligned"), slik at settet av mulige oversettelser for et gitt ord kan finnes automatisk. Internasjonalt finnes det flere miljøer som arbeider med ord-parallellstilling av oversettelseskorpora, blant annet i Sverige, men på grunn av språkspesifikke problemer ved slik parallellstilling kan ikke utenlandske programmer uten videre anvendes på norsk. I Bergen har Knut Hofland ved HIT-senteret arbeidet med slike metoder for norsk og engelsk. Et delmål for prosjektet er derfor å videreutvikle denne programvaren, slik at ENPC i løpet av første prosjektår kan forsynes med slik lenking. Vi tar også sikte på å samarbeide med prof. Lars Ahrenberg i Linköping og med prof. Anna Sågvall Hein i Uppsala om ord-parallellstilling.
    Ord-parallellstilling av ENPC må finne sted gjennom en kombinasjon av automatisk og manuell lenkning. Gangen vil bli at lenkinger innføres gjennom den første versjonen av parallellstillingsprogrammet. Dernest skal en assistent ta utgangspunkt i dette lenkede materialet og korrigere en del av det manuelt gjennom å fjerne og legge til lenker. På grunnlag av dette korrigerte materialet skal programmet for automatisk parallellstilling forbedres, hvoretter assistenten får et forbedret grunnlag for ytterligere manuell lenkning, osv. Dette arbeidet kan begynne etter at første versjon av programmet foreligger, etter planen mot slutten av første prosjektår (i løpet av de første månedene av 2002).

Delmål 2
Lisp-programmene for derivasjon av semilattice-strukturer m.m., utviklet av Dyvik, er på grunn av programmeringsomgivelsene (Medley Interlisp) ikke egnet for anvendelse i stor skala. Et annet delmål er derfor å reprogrammere og videreutvikle disse algoritmene innenfor omgivelser som tillater bruk direkte mot korpus, og kobling til andre søke- og editeringsredskaper. Det skal også utvikles et web-basert brukergrensesnitt til programmene. HIT-senterets Paul Meurer er engasjert til denne oppgaven.

Delmål 3
Særlig før ord-parallellstillingen kan gjennomføres, men også senere, vil det være nødvendig å ekserpere ytterligere materiale fra ENPC delvis manuelt, og bearbeide dette. Vi er i gang med ytterligere ekserpering med utgangspunkt i adjektiver. Gangen i den manuelle ekserperingen er at alle oversettelser i L2 av et gitt ord w i L1 ekserperes, dernest alle oversettelser tilbake i L1 av disse oversettelsene, dernest oversettelsene av disse igjen i L2, osv. I mange tilfeller øker ordmengden på denne måten meget raskt, slik at den manuelle ekserperingen er en tidkrevende prosess. Det skal også ekserperes materiale med utgangspunkt i verb og substantiver. Det manuelt ekserperte materialet vil være et grunnlag for videre arbeid med metodene for derivasjon av semantiske nettverk, og det vil også utgjøre et grunnlag (en "gull-standard") for evaluering av parallellstillings-programmet. Bare erfaring med manuell ekserpering kan gi grunnlag for å skjerpe forståelsen av hva vi bør mene med oversettelsesmessig 'korrespondanse', og dermed vår forståelse av hva det automatiske parallellstillingsprogrammet bør yte.
    Videre trenges len lingvist/datalingvist til å bearbeide og evaluere resultatene av delmål 4 (se nedenfor). Til dette arbeidet er cand.philol. Martha Thunes engasjert.
    Vi regner også med å kunne knytte hovedfagsstudenter til prosjektet.

Delmål 4
    Siste delmål er å anvende den nye programvaren til avledning av semantiske nett i større skala fra ENPC, og evaluering av resultatene. Metoden medfører at semantiske nett avledes for begge de involverte språk norsk og engelsk. Dette gjør det mulig å evaluere resultatet mot eksisterende ressurser for engelsk, f.eks. WordNet ved Princeton og andre utgitte thesauri for engelsk.
    En viktig del av dette arbeidet vil bli å studere hvilken form den deriverte nettverksinformasjonen bør ha. For det første er de deriverte lattice-strukturene antagelig unødig komplekse, slik at metoder for automatisk forenkling av dem vil være av interesse. For det annet må det utvikles andre representasjonsformater for disse strukturene enn grafer, slik at de lettere kan sammenlignes med eksisterende ressurser som f.eks. Princeton Wordnet. Egnede database-strukturer og programvare for derivasjon av slike databaserepresentasjoner av lattice-strukturene skal utvikles.
 
 

4. Utvalgte referanser

Ahrenberg, Lars, Magnus Merkel, Anna Sågvall Hein og Jörg Tiedemann (2000): Evaluation of Word Alignment Systems. I: Proceedings of the 2nd International Conference on Language Resources and Evaluation, LREC-2000, Athen, Hellas.

Dyvik, Helge (1998): A translational basis for semantics. I: Stig Johansson and Signe Oksefjell (red.): Corpora and Crosslinguistic Research: Theory, Method and Case Studies, pp. 51-86. Rodopi. http://www.hf.uib.no/i/LiLi/SLF/ans/Dyvik/transem.html

Dyvik, Helge (1999): On the complexity of translation. I: Hilde Hasselgård og Signe Oksefjell (red.): Out of Corpora. Studies in Honour of Stig Johansson.pp. 215-230. Amsterdam: Rodopi. http://www.hf.uib.no/i/LiLi/SLF/ans/Dyvik/comptran.html

Fellbaum, Christiane (1998) (red.): WordNet. An Electronic Lexical Database. The MIT Press.

Grefenstette, Gregory (1994): Explorations in Automatic Thesaurus Discovery. Kluwer Academic Publishers.

Ide, Nancy (1999): Parallel translations as sense discriminators. SIGLEX99: Standardizing Lexical Resources, ACL99 Workshop, College Park, Maryland, 52-61.

Resnik, Philip and Davis Yarowsky (1997): A perspective on word sense disambiguation methods and their evaluation. I: Proceedings of ACL
 SIGLEX Workshop on Tagging Text with Lexical Semantics: Why, What, and How?, Washington D.C., USA.

Tiedemann, Jörg (1998): Extraction of Translation Equivalents from Parallel Corpora. I: Proceedings of the 11th Nordic Conference on Computational Linguistics NODALI98, Center for Sprogteknologi and Department of General and Applied Linguistics, University of Copenhagen, pp.120-128.
 
 

[an error occurred while processing this directive]