|
English
version here
Målet for dette
prosjektet er å videreutvikle og utprøve en metode for å avlede ordnett
(semantiske nettverk, 'concept nets') automatisk fra oversettelseskorpora.
Metoden
er utviklet av Helge Dyvik.
Ordnett er en
språkteknologisk ressurs av stadig økende betydning og har flere
språkteknologiske anvendelser. De tillater innholdsbasert informasjonssøkning,
automatisk logisk inferanse, og mer nyansert maskinoversettelse enn man
klarer med enklere leksikonressurser. Parallellkorpora er tekstsamlinger
bestående av originaler og oversettelser fra to eller flere språk, der
originalene og deres oversettelser er parallellstilt ("aligned") på setningsnivå,
eller i sjeldnere tilfeller også på ordnivå.
Metoden tar
utgangspunkt i oversettelseskorrespondanser hentet fra et parallellkorpus.
På grunnlag av nettverket av korrespondanser beregnes semantiske relasjoner
mellom ord automatisk, f.eks. over- og underbegreper ('dyr' vs. 'hund',
'god' vs. 'snill'), og resultatet fremstilles i en kompleks lattice-struktur.
Prosjektets mål er å anvende og utprøve metoden i stor skala mot et
norsk/engelsk parallellkorpus. Dette forutsetter blant annet utvikling
av en algoritme for parallellføring av originaler og oversettelser på
ordnivå, annen programvareutvikling, ekserpering og bearbeidelse av materiale
fra korpus, og evaluering av de utviklede algoritmene.
Et vellykket
resultat vil innebære at deler av arbeidet med å utvikle et norsk ordnett
som en ressurs for norsk språkteknologi vil kunne automatiseres.
|
|
Prosjektbeskrivelse
Prosjektleder:
Helge
Dyvik
Prosjektmedarbeidere:
Knut Hofland
Paul Meurer
Sindre
Sørensen
Martha
Thunes
Varighet:
April 2001-mars 2004
Finansiering:
2001-2002 finansiert av
L. Meltzers høyskolefond.
2002-2004 finansiert av
Norges forskningsråd
Arbeider
Web demo
|