WordNet

WordNet é un léxico semántico para a lingua inglesa. Agrupa palabras inglesas en grupos de sinónimos chamados synsets, prové de definicións curtas e almacena as distintas relacións semánticas entre estes grupos de sinónimos. O propósito é dobre: producir unha combinación de dicionario e tesauro que se puidese empregar dunha forma máis intuitiva, e co obxectivo de soporta-la análise automática de textos e as apliacións da intelixencia artificial. A base de datos e ferramentas software son públicas baixo unha licenza tipo BSD e poden ser descargadas e empregadas libremente. A base de datos tamén pode ser consultada en liña.

WordNet foi creado e mantido polo Laboratorio de Ciencias Cognitivas da Universidade de Princeton baixo a dirección do profesor de psicoloxía George A. Miller. O seu densenvolvemento comezou en 1985. Ao longo dos anos, o proxecto recibiu preto de 3 millóns de dólares en doazóns, principalmente de axencias gobernamentais interesadas na tradución automática.

Contidos da base de datos

No ano 2005, a base de datos contiña 150.000 palabras organizadas en 115.000 synsets para un total de 203.000 pares con significados; comprimidos ocupan arredor de 12 megabytes de tamaño.

WordNet distingue entre nomes, verbos, adxectivos e adverbios, asumindo que estes son aloxados no cerebro humano dunha forma distinta. Cada synset contén un grupo de palabras sinónimas ou collocations (unha colocación é unha secuencia de palabras que van xuntas para formar un significado específico, tal como "préstamo de coche"); normalmente as palabras forman parte de varios synsets. O significado de cada synset é explicado en profundidade a través de glosas curtas. Un synset tipico de exemplo con glosa e:

bo, correcto, oportuno -- (o máis adecuado ou correcto para un propósito particular; "un bo momento para plantar tomates"; "o momento correcto para actuar"; "o momento é oportuno para grandes cambios sociais")

Cada synset esta conectado a outros synsets a través de varias relacións. Estas relacións poden variar dependendo do tipo de palabra:

Nomes
- sinónimos: synsets con significados similares
- hiperónimos: Y é un hiperónimo de X se cada X é un (tipo de) Y
- hipónimos: Y é un hipónimo de X se cada Y é un (tipo de) X
- termos coordinados: Y é un termo coordinado de X se X é Y comparten un hiperónimo
- holónimo: Y é un holónimo de X se X é parte de Y
- merónimo: Y é un merónimo de X se Y é parte de X
Verbos
- sinónimos
- hiperónimo: o nome Y é un hiperónimo do verbo X se a actividade X é un (tipo de) Y
- termos coordinados: aqueles termos compartindo un hiperónimo
Adxectivos
- sinónimos e nomes relacionados
- antónimos: adxectivos de significados opostos
Adverbios
- sinónimos e adxectivos raíz
- antónimos

WordNet tamén proporciona o polysemy count (contador polisémico) dunha palabra: o número de synsets que contén a palabra. Se unha palabra está presente en varios synsets (p.ex. ten varios significados), entón tipicamente algúns significados son máis comúns ca outros. WordNet contabiliza isto a través da frequency score (puntuación de frecuencia): nalgúns textos de exemplo todas as palabras foron semanticamente anotadas co synset correspondente, ademais de contabilizado con que frecuencia unha palabra aparecía cun sentido.

A interface da base de datos é quen de deducir a forma raíz dunha palabra a partir da entrada do usuario; soamente a forma principal se almacena na base de datos.

Limitacións

O contrario que outros dicionarios, WordNet non inclúe información acerca da etimoloxía, pronuncia e as formas dos verbos irregulares e contén soamente información limitada acerca do uso.

A información lexicográfica e semántica é mantida na actualidade en arquivos lexicograficos, os cales son procesados por un programa chamado muinho para producir a base de datos distribuída. Tanto o muinho como os arquivos lexicográficos están dispoñibles libremente, pero modificar e manter a base de datos é sen dúbida difícil.

Proxectos relacionados

O proxecto EuroWordNet ten producidas WordNets para varias linguas europeas relacionándoas entre elas; estas non son libremente accesibles a pesar de todo. O proxecto Wordnet Global intenta coordinar a produción e relación das WorNets en todas as linguas. Oxford University Press, que publica o Dicionario Oxford de Inglés ten anunciado plans para producir a súa propia WordNet.

O eXtended WordNet é un proxecto da Universidade de Texas en Dallas que pretende mellorar WordNet, facendo así a información contada nestas definicións dispoñible para sistemas de procesamento automático do coñecemento. Esta é libremente accesible baixo unha licenza similar á de WordNet.

O proxecto GCIDE produce un dicionario combinando o dicionario de dominio público Webster de 1913 con varias definicións de WordNet e material proporcionado por voluntarios. Ofrécese baixo a licenza copyleft GPL.

A WordNet en galego

A Galnet é a WordNet da lingua galega http://sli.uvigo.gal/galnet/ Arquivado 03 de outubro de 2017 en Wayback Machine. e está desenvolvida polo Seminario de Lingüística Informática.

Véxase tamén

Outros artigos

Corpus Lingüístico da Universidade de Vigo
Corpus Técnico do Galego
Web Semántica
Taxonomía
WordWeb: WordWeb (freeware) e a versión comercial WordWeb Pro empregan a base de datos WordNet

Ligazóns externas

The WordNet Home Page
Global Wordnet
eXtended WordNet Arquivado 08 de xaneiro de 2006 en Wayback Machine.
Article about Miller and WordNet in the Star Ledger, 22 de xaneiro de 2002
A nice implementation of WordNet and Wikipedia
WordNet 2.0 files in MySQL format
WordNet 2.0 in RDF/OWL format (synsets), WordNet 2.0 in RDF/OWL format (words)
WordNet 2.0 one touch interface—thesaurus dictionary with WordNet 2.0 one touch interface available.