Målet for dette prosjektet er å videreutvikle og utprøve
en metode for å avlede ordnett (semantiske nettverk, 'concept nets')
automatisk fra oversettelseskorpora. Metoden
er utviklet av Helge Dyvik.
Ordnett er en språkteknologisk ressurs av stadig økende
betydning og har flere språkteknologiske anvendelser. De tillater
innholdsbasert informasjonssøkning, automatisk logisk inferanse,
og mer nyansert maskinoversettelse enn man klarer med enklere leksikonressurser.
Parallellkorpora er tekstsamlinger bestående av originaler og oversettelser
fra to eller flere språk, der originalene og deres oversettelser
er parallellstilt ("aligned") på setningsnivå, eller i sjeldnere
tilfeller også på ordnivå.
Metoden tar utgangspunkt i oversettelseskorrespondanser hentet fra et
parallellkorpus. På grunnlag av nettverket av korrespondanser beregnes
semantiske relasjoner mellom ord automatisk, f.eks. over- og underbegreper
('dyr' vs. 'hund', 'god' vs. 'snill'), og resultatet fremstilles i en kompleks
lattice-struktur. Prosjektets mål er å anvende og utprøve
metoden i stor skala mot et norsk/engelsk parallellkorpus. Dette forutsetter
blant annet utvikling av en algoritme for parallellføring av originaler
og oversettelser på ordnivå, annen programvareutvikling, ekserpering
og bearbeidelse av materiale fra korpus, og evaluering av de utviklede
algoritmene.
Et vellykket resultat vil innebære at deler av arbeidet med å
utvikle et norsk ordnett som en ressurs for norsk språkteknologi
vil kunne automatiseres. |
 |
Prosjektbeskrivelse
Prosjektleder:
Helge Dyvik
Prosjektmedarbeidere:
Knut Hofland
Paul Meurer
Sindre Sørensen
Martha Thunes
Varighet:
April 2001-mars 2004
Finansiering:
Første prosjektår er finansiert av
L. Meltzers høyskolefond.
|