Procesamento da linguaxe natural
O Procesamento da Linguaxe Natural (PLN, ou NLP; Natural Language Processing) é unha subdisciplina da intelixencia artificial e unha das aplicacións máis útiles da lingüística computacional. O PLN ocúpase da formulación e investigación de mecanismos eficaces computacionalmente para a comunicación entre persoas ou entre persoas e máquinas por medio de linguaxe natural. O PLN non trata da comunicación por medio de linguaxes naturais dunha forma abstracta, senón que procura deseñar mecanismos para comunicarse que sexan eficaces computacionalmente -que se poidan realizar por medio de programas que executen ou simulen a comunicación. Os modelos aplicados enfócanse non só á comprensión da linguaxe de por si, senón a aspectos xerais cognitivos humanos e á organización da memoria. A linguaxe natural serve só de medio para estudar estes fenómenos.
Historia
editarO Procesamento da Linguaxe Natural (PLN) é unha das pedras angulares temperás da intelixencia artificial (IA). A tradución automática, por exemplo, naceu a fins da década dos corenta, antes de que se acuñara a propia expresión «Intelixencia Artificial». Non obstante, o PLN desempeñou múltiples papeis no contexto da IA, e a súa importancia dentro deste campo ten crecido e decrecido a consecuencia de cambios tecnolóxicos e científicos. Os primeiros intentos de traducir textos por ordenador a fins dos anos corenta e durante os cincuenta fracasaron debido á escasa potencia dos ordenadores e á escasa sofistificación lingüística. Porén, os esforzos realizados nas décadas dos sesenta e os setenta para producir interfaces en linguaxe natural para bases de datos e outras aplicacións informáticas obtiveron un certo grao significativo de éxito. A década dos oitenta e a principios dos noventa veu rexurdir a investigación no terreo da Tradución Automática.
Dificultades no procesamento de linguaxes naturais
editarAmbigüidade
editarA linguaxe natural é inherentemente ambigua a diferentes niveis:
- A nivel léxico, unha mesma palabra pode ter varios significados, e a selección do apropiado debese deducir a partir do contexto oracional ou coñecemento básico. Moitas investigacións no campo do procesamento de linguaxes naturais teñen estudado métodos de resolver as ambigüidades léxicas mediante dicionarios, gramáticas, bases do coñecemento e correlacións estatísticas.
- A nivel referencial, a resolución de anáforas e catáforas implica determinar a entidade lingüística previa ou posterior á que fan referencia.
- A nivel estrutural, requírese da semántica para desambiguar a dependencia dos sintagmas preposicionais que conducen á construción de distintas árbores sintácticas.
- A nivel pragmático, unha oración, a miúdo, non significa o que realmente se está a dicir. Elementos tales como a ironía teñen un papel importante na interpretación da mensaxe.
Para resolver estes e outros tipos de ambigüidades, o problema central no PLN é a tradución de entradas en linguaxe natural a unha representación interna sen ambigüidade, como árbores de análise.
Detección de separación entre as palabras
editarNa lingua falada, non se acostuman facer pausas entre palabra e palabra. O lugar no que se debe separar as palabras a miúdo depende de cal é a posibilidade que manteña un sentido lóxico tanto gramatical como contextual. Na lingua escrita, idiomas como o chinés mandarín tampouco teñen separacións entre as palabras.
Recepción imperfecta de datos
editarAcentos estranxeiros, rexionalismos ou dificultades na produción da fala, erros de mecanografado ou expresións non gramaticais, erros na lectura de textos mediante OCR
Compoñentes
editarA análise das palabras para extraer raíces, trazos flexivos, unidades léxicas compostas e outros fenómenos.
A análise da estrutura sintáctica da frase mediante unha gramática da lingua en cuestión.
A extracción do significado da frase, e a resolución de ambigüidades léxicas e estruturais.
A análise do texto máis alá dos límites da frase, por exemplo, para determinar os antecedentes referenciais dos pronomes.
- Planificación da frase
Estruturar cada frase do texto co fin de expresar o significado adecuado.
- Xeración da frase
A xeración da cadea lineal de palabras a partir da estrutura xeral da frase, coas súas correspondentes flexións, concordancias e restantes fenómenos sintácticos e morfolóxicos.
Aplicacións
editarAs principais tarefas de traballo na área do PLN son:
Notas
editar- Lingüística computacional. Xavier Gómez Guinovart. Manual de Ciencias da Linguaxe, pp. 221–268. Edicións Xerais de Galicia, Vigo, 2000
- Tecnoloxías da lingua galega e normalización lingüística. Xavier Gómez Guinovart. Lingua e investigación: II Xornadas sobre lingua e usos. Universidade da Coruña, A Coruña, 2006
- El procesamiento del lenguaje natural, tecnología en transición. Jaime Carbonell. Congreso de la Lengua Española, Sevilla, 1992
- Lenguas y tecnologías de la información. Ángel G. Jordán. Congreso de la Lengua Española, Sevilla, 1992
Véxase tamén
editarOutros artigos
editar- Linguaxes naturais
- Xeración de linguaxe natural
- Modelo de texto a imaxe
- GATE General Architecture for Text Engineering
Ligazóns externas
editar- Seminario de Lingüística Informática (SLI) na Universidade de Vigo
- PLN na Universidade Politécnica de Madrid
- Grupo COLE (Compiladores e Linguaxes) que agrupa a investigadores en PLN das universidades da Coruña e Vigo
- Grupo LYS (Lingua e Sociedade da Información) da Universidade da Coruña
- Rede Galega de Procesamento da Linguaxe e Recuperación da Información (RedPLIR)