Forskningsprosjekt

Fra parallellkorpus til ordnett


English version here

Målet for dette prosjektet er å videreutvikle og utprøve en metode for å avlede ordnett (semantiske nettverk, 'concept nets') automatisk fra oversettelseskorpora. Metoden er utviklet av Helge Dyvik.

Ordnett er en språkteknologisk ressurs av stadig økende betydning og har flere språkteknologiske anvendelser. De tillater innholdsbasert informasjonssøkning, automatisk logisk inferanse, og mer nyansert maskinoversettelse enn man klarer med enklere leksikonressurser. Parallellkorpora er tekstsamlinger bestående av originaler og oversettelser fra to eller flere språk, der originalene og deres oversettelser er parallellstilt ("aligned") på setningsnivå, eller i sjeldnere tilfeller også på ordnivå.

Metoden tar utgangspunkt i oversettelseskorrespondanser hentet fra et parallellkorpus. På grunnlag av nettverket av korrespondanser beregnes semantiske relasjoner mellom ord automatisk, f.eks. over- og underbegreper ('dyr' vs. 'hund', 'god' vs. 'snill'), og resultatet fremstilles i en kompleks lattice-struktur. Prosjektets mål er å anvende og utprøve metoden i stor skala mot et norsk/engelsk parallellkorpus. Dette forutsetter blant annet utvikling av en algoritme for parallellføring av originaler og oversettelser på ordnivå, annen programvareutvikling, ekserpering og bearbeidelse av materiale fra korpus, og evaluering av de utviklede algoritmene.

Et vellykket resultat vil innebære at deler av arbeidet med å utvikle et norsk ordnett som en ressurs for norsk språkteknologi vil kunne automatiseres.


Prosjektbeskrivelse

Prosjektleder:
Helge Dyvik

Prosjektmedarbeidere:
Knut Hofland
Paul Meurer
Sindre Sørensen
Martha Thunes

Varighet:
April 2001-mars 2004

Finansiering:
2001-2002 finansiert av
L. Meltzers høyskolefond.
2002-2004 finansiert av
Norges forskningsråd

Arbeider

Web demo

strek Offisiell side