Prosjektbeskrivelse
1. Bakgrunn
Ordnett (semantiske nett, 'word nets', 'concept nets') er en språkteknologisk ressurs av stadig økende betydning. Et ordnett er en database over ord der ordenes ulike betydninger er utskilt, og der ulike semantiske relasjoner mellom ord er markert, for eksempel hyponymi/hyperonymi, synonymi m.m. Et slikt ordnett gjør det således mulig å finne ords over- og underbegreper (f.eks. at en hund er et dyr), og å finne nær-synonymer (f.eks. at et 'selskap' også kan kalles en 'bedrift'), med mer. Ordnett har flere språkteknologiske anvendelser. De tillater:
2. Dyviks metode: "Semantiske speil"
Helge Dyvik har utviklet en metode for å avlede semantiske nettverk
i form av lattice-strukturer automatisk fra data hentet fra parallellkorpora
(se Dyvik
1998). Parallellkorpora er tekstsamlinger bestående av originaler
og oversettelser fra to eller flere språk, der originalene og deres
oversettelser er parallellstilt ("aligned") på setningsnivå,
eller i sjeldnere tilfeller også på ordnivå. Søk
på ord i det ene språket i slike korpora gir forekomstene i
kombinasjon med deres oversettelser i det andre språket. Ord og uttrykk
kan således sorteres etter måten de er oversatt på. Parallellkorpora
er derfor en rik kilde til semantisk informasjon.
Resultatene av Dyviks pilotstudier tyder på
at denne informasjonen kan utnyttes ved hjelp av de formelle redskapene
han har utviklet, blant annet til arbeid med oppbygging av semantiske nett.
Metoden tar utgangspunkt i at ord (og eventuelt andre uttrykk) i hvert
språk registreres med settene av sine mulige oversettelser. Disse
settene vil overlappe på ulike måter, og på grunnlag
av disse overlappingsmønstrene kan man blant annet nærme seg
et plausibelt skille mellom flertydighet og vaghet. For hver utskilte betydning
kan man videre automatisk avlede semantiske representasjoner i form av
trekkstrukturer (mengder av "semantiske" trekk som assosieres med den enkelte
ordbetydning, der hvert trekk konstrueres algoritmisk på grunnlag
av oversettelsesrelasjonene), slik at beslektede betydninger kommer til
å dele trekk, desto flere trekk jo nærmere slektskap. Disse
trekkstrukturene uttrykker da både oversettelsesrelasjoner mellom
språkene og semantiske relasjoner mellom ordene innenfor hvert språk:
Settet av trekkstrukturer, og dermed av ordbetydninger, utgjør en
delvis ordnet mengde, ordnet etter inklusjonsforhold mellom trekkstrukturene,
og denne delvise ordningen uttrykker hyponymi/hyperonymi-relasjoner mellom
de klassifiserte ordbetydningene.
Et enkelt eksempel kan illustrere idéen:
Settet av mulige oversettelser av 'snill' viser seg å være
en undermengde av settet av mulige oversettelser av 'god'. Dette medfører
at 'god' automatisk får en undermengde av 'snill's trekk, og at 'snill'
dermed kommer ut som et hyponym (et underbegrep) til 'god'. Den partielt
ordnede mengden av ordbetydninger kan utvides til en semilattice ved at
interseksjoner av de ulike trekkstrukturene også inkluderes som "virtuelle
betydninger". Slike "virtuelle betydninger", representert som X-noder i
eksemplene nedenfor, blir dermed ko-hyperonymer for betydninger med overlappende
trekkstrukturer som ikke selv står i et hyperonym/hyponym-forhold.
Pilotstudiene tyder på at ordbetydninger i en slik semilattice-struktur,
som kan fremstilles som en graf, blir plausibelt gruppert etter semantisk
slektskap; se eksempler nedenfor.
I prosjektet tas det sikte på å etterprøve
dette i større skala. Pilotstudiene skjer på grunnlag av English-Norwegian
Parallel Corpus (ENPC), utviklet av prof. Stig Johansson og medarbeidere
i Oslo og Bergen. Algoritmer for automatisk derivasjon av semilattice-strukturer
fra ekserperte ord med deres oversettelser er implementert av Dyvik i Lisp.
ENPC er parallellstilt på setningsnivå, ikke på ordnivå.
Dette innebærer at ekserpering av det enkelte ords mulige oversettelser
for øyeblikket må skje manuelt, noe som igjen legger betydelige
begrensninger på omfanget av det hittil ekserperte materialet.
Det bør understrekes at metoden ikke tillater
oss å derivere alle typer semantisk informasjon som man ønsker
å representere i ordnett. I tillegg til betydningslikhets- og hyponymi-relasjoner,
som metoden kan finne, representerer ordnett gjerne også antonymirelasjoner,
altså motsetningsrelasjoner som god ? dårlig. Slike relasjoner
lar seg neppe uten videre avlede av oversettelseskorpora.
Grafene nedenfor er utsnitt av komplekse semilatticer
derivert i pilotprosjektet. De er algoritmisk avledet av de ekserperte
oversettelses-forbindelsene fra ENPC slik det er beskrevet ovenfor, altså
uten medvirkning fra en menneskelig analysator. X-nodene representerer
de "virtuelle ordene", med interseksjonen av sine døtres semantiske
trekk. Tallene etter ordene ("effektiv2" osv.) nummererer betydninger;
ulike betydninger av samme ord havner i ulike latticer. Intuitivt skal
betydninger høyt oppe i grafene (med få trekk) være
mer generelle enn betydninger langt nede i grafene (med flere trekk), og
en betydning A dominert av en betydning B skal intuitivt være et
hyponym til B. Betydninger med relativt lave felles dominerende noder skal
intuitivt være relativt nær beslektede.
Vi vil ikke her bruke plass på utførlige kommentarer til
grafene, men et par ting er verd å observere ved siste graf: Den
semantiske ambivalensen i selskap kommer til uttrykk i at selskap2
er dominert av to noder, X3 og X8. X3 er i sin tur relatert til betydningene
firma2,
fabrikk2 og bedrift1, mens X8 er relatert til gruppe2
og parti2. Ambivalensen i lag2 kommer til uttrykk på
lignende måte. Ambivalensene kommer ut som nyanser innenfor samme
semantiske felt, og ikke som kontrastiv flertydighet - som ville ha ledet
til separate latticer - som en automatisk konsekvens av at det finnes mer
enn ett ord med lignende ambivalens (selskap,lag og det engelske
company). Kontrastiv flertydighet, som i tak = 'hustopp'
vs. tak = 'grep', er typisk en idiosynkratisk egenskap ved enkeltord
(flere ord deler neppe samme ambivalens), og metoden medfører at
slik flertydighet dermed fører til separate betydninger i hver sin
grafstruktur.
3. Mål og deloppgaver
Hovedmål
Prosjektets hovedmål er å videreutvikle den omtalte metoden
og anvende den i betydelig større skala på korpuset ENPC (som
gjennom "word alignment" skal muliggjøre automatisk ekserpering),
og slik utprøve metodens muligheter som et grunnlag for delvis automatisk
utvikling av ordnett.
Delmål 1
En slik anvendelse av metoden i større skala forutsetter at
korpus er parallellstilt på ord-nivå ("word-aligned"), slik
at settet av mulige oversettelser for et gitt ord kan finnes automatisk.
Internasjonalt finnes det flere miljøer som arbeider med ord-parallellstilling
av oversettelseskorpora, blant annet i Sverige, men på grunn av språkspesifikke
problemer ved slik parallellstilling kan ikke utenlandske programmer uten
videre anvendes på norsk. I Bergen har Knut Hofland ved HIT-senteret
arbeidet med slike metoder for norsk og engelsk. Et delmål for prosjektet
er derfor å videreutvikle denne programvaren, slik at ENPC i løpet
av første prosjektår kan forsynes med slik lenking. Vi tar
også sikte på å samarbeide med prof. Lars Ahrenberg i
Linköping og med prof. Anna Sågvall Hein i Uppsala om ord-parallellstilling.
Ord-parallellstilling av ENPC må finne sted
gjennom en kombinasjon av automatisk og manuell lenkning. Gangen vil bli
at lenkinger innføres gjennom den første versjonen av parallellstillingsprogrammet.
Dernest skal en assistent ta utgangspunkt i dette lenkede materialet og
korrigere en del av det manuelt gjennom å fjerne og legge til lenker.
På grunnlag av dette korrigerte materialet skal programmet for automatisk
parallellstilling forbedres, hvoretter assistenten får et forbedret
grunnlag for ytterligere manuell lenkning, osv. Dette arbeidet kan begynne
etter at første versjon av programmet foreligger, etter planen mot
slutten av første prosjektår (i løpet av de første
månedene av 2002).
Delmål 2
Lisp-programmene for derivasjon av semilattice-strukturer m.m., utviklet
av Dyvik, er på grunn av programmeringsomgivelsene (Medley Interlisp)
ikke egnet for anvendelse i stor skala. Et annet delmål er derfor
å reprogrammere og videreutvikle disse algoritmene innenfor omgivelser
som tillater bruk direkte mot korpus, og kobling til andre søke-
og editeringsredskaper. Det skal også utvikles et web-basert brukergrensesnitt
til programmene. HIT-senterets Paul Meurer er engasjert til denne oppgaven.
Delmål 3
Særlig før ord-parallellstillingen kan gjennomføres,
men også senere, vil det være nødvendig å ekserpere
ytterligere materiale fra ENPC delvis manuelt, og bearbeide dette. Vi er
i gang med ytterligere ekserpering med utgangspunkt i adjektiver. Gangen
i den manuelle ekserperingen er at alle oversettelser i L2 av et gitt ord
w i L1 ekserperes, dernest alle oversettelser tilbake i L1 av disse oversettelsene,
dernest oversettelsene av disse igjen i L2, osv. I mange tilfeller øker
ordmengden på denne måten meget raskt, slik at den manuelle
ekserperingen er en tidkrevende prosess. Det skal også ekserperes
materiale med utgangspunkt i verb og substantiver. Det manuelt ekserperte
materialet vil være et grunnlag for videre arbeid med metodene for
derivasjon av semantiske nettverk, og det vil også utgjøre
et grunnlag (en "gull-standard") for evaluering av parallellstillings-programmet.
Bare erfaring med manuell ekserpering kan gi grunnlag for å skjerpe
forståelsen av hva vi bør mene med oversettelsesmessig 'korrespondanse',
og dermed vår forståelse av hva det automatiske parallellstillingsprogrammet
bør yte.
Videre trenges len lingvist/datalingvist til å
bearbeide og evaluere resultatene av delmål 4 (se nedenfor). Til
dette arbeidet er cand.philol. Martha Thunes engasjert.
Vi regner også med å kunne knytte hovedfagsstudenter
til prosjektet.
Delmål 4
Siste delmål er å anvende den nye programvaren
til avledning av semantiske nett i større skala fra ENPC, og evaluering
av resultatene. Metoden medfører at semantiske nett avledes for
begge de involverte språk norsk og engelsk. Dette gjør det
mulig å evaluere resultatet mot eksisterende ressurser for engelsk,
f.eks. WordNet ved Princeton og andre utgitte thesauri for engelsk.
En viktig del av dette arbeidet vil bli å
studere hvilken form den deriverte nettverksinformasjonen bør ha.
For det første er de deriverte lattice-strukturene antagelig unødig
komplekse, slik at metoder for automatisk forenkling av dem vil være
av interesse. For det annet må det utvikles andre representasjonsformater
for disse strukturene enn grafer, slik at de lettere kan sammenlignes med
eksisterende ressurser som f.eks. Princeton Wordnet. Egnede database-strukturer
og programvare for derivasjon av slike databaserepresentasjoner av lattice-strukturene
skal utvikles.
4. Utvalgte referanser
Ahrenberg, Lars, Magnus Merkel, Anna Sågvall Hein og Jörg Tiedemann (2000): Evaluation of Word Alignment Systems. I: Proceedings of the 2nd International Conference on Language Resources and Evaluation, LREC-2000, Athen, Hellas.
Dyvik, Helge (1998): A translational basis for semantics. I: Stig Johansson and Signe Oksefjell (red.): Corpora and Crosslinguistic Research: Theory, Method and Case Studies, pp. 51-86. Rodopi. http://www.hf.uib.no/i/LiLi/SLF/ans/Dyvik/transem.html
Dyvik, Helge (1999): On the complexity of translation. I: Hilde Hasselgård og Signe Oksefjell (red.): Out of Corpora. Studies in Honour of Stig Johansson.pp. 215-230. Amsterdam: Rodopi. http://www.hf.uib.no/i/LiLi/SLF/ans/Dyvik/comptran.html
Fellbaum, Christiane (1998) (red.): WordNet. An Electronic Lexical Database. The MIT Press.
Grefenstette, Gregory (1994): Explorations in Automatic Thesaurus Discovery. Kluwer Academic Publishers.
Ide, Nancy (1999): Parallel translations as sense discriminators. SIGLEX99: Standardizing Lexical Resources, ACL99 Workshop, College Park, Maryland, 52-61.
Resnik, Philip and Davis Yarowsky (1997): A perspective on word sense
disambiguation methods and their evaluation. I: Proceedings of ACL
SIGLEX Workshop on Tagging Text with Lexical Semantics: Why,
What, and How?, Washington D.C., USA.
Tiedemann, Jörg (1998): Extraction of Translation Equivalents from
Parallel Corpora. I: Proceedings of the 11th Nordic Conference on Computational
Linguistics NODALI98, Center for Sprogteknologi and Department of General
and Applied Linguistics, University of Copenhagen, pp.120-128.
[an error occurred while processing this directive]