Diseño y desarrollo de un modelo de desambiguación léxica automática (Núñez, 2021)

Este repositorio contiene los archivos .txt, .csv, .xml y .xsl correspondientes a los recursos lingüísticos, los experimentos y los resultados de la implementación de un modelo de desambiguación léxica automática (presentado en el programa de Doctorado en Lingüística de la Facultad de Letras de la Pontificia Universidad Católica de Chile). La presente investigación tiene como objetivo general desarrollar un modelo más robusto de medida para la similitud y relación semántica que los disponibles actualmente para resolver el problema de la desambiguación léxica automática, aplicado al procesamiento del lenguaje natural (PLN).

Mis estudios doctorales fueron patrocinados por la Agencia Nacional de Investigación y Desarrollo (ANID) del Ministerio de Ciencia, Tecnología, Conocimiento e Innovación del Gobierno de Chile, en el marco del Programa de Formación de Capital Humano Avanzado, Beca de Doctorado Nacional 2016 (folio Nº 21160361). La tesis se encuentra disponible en el Repositorio ANID.

Los resultados de esta tesis doctoral están vinculados con el desarrollo del módulo de PLN en el proyecto de investigación "Planificación y gestión de recursos hídricos a partir de análisis de datos de IoT (WATERoT)" (RTC 2017-6389-5), financiado por el Ministerio de Economía, Industria y Competitividad (MINECO), Agencia Estatal de Investigación (AEI) y el Fondo Europeo de Desarrollo Regional (FEDER).

Experimento piloto Senseval-3

El corpus utilizado para la tarea de muestra léxica del español en SENSEVAL-3 (Evaluating Word Sense Disambiguation Systems) está formado por 12.625 ejemplos etiquetados, que cubren 25.875 frases y 1.506.233 palabras en total. El contexto considerado para cada ejemplo incluye la palabra objetivo, más una ventana contextual. Todos los ejemplos han sido extraídos desde el corpus del año 2000 de la Agencia Española de Noticias EFE, que incluye 289.066 noticias (2.814.291 frases y 95.344.946 palabras), de enero a diciembre de 2000. Para cada palabra, un mínimo de 200 ejemplos han sido etiquetados manualmente por tres anotadores humanos expertos independientes. Los casos de desacuerdo han sido resueltos por otro lexicógrafo (asignando un sentido único a cada ejemplo). Para la ejecución del experimento de prueba de aprendizaje automático utilizando el algoritmo bayesiano ingenuo, se seleccionaron 120 instancias de la muestra léxica para la palabra objetivo «partido», extraída desde el corpus SENSEVAL-3.

Minidiccionario para los sentidos de «partido»
Corpus de 120 instancias para cada uno de los sentidos de «partido»
Tareas de procesamiento SENSEVAL-3 (archivo .zip para descargar)

Resultados de experimento SENSEVAL-3 para las medidas de reducción de dimesión

"partido.1" = Organización política cuyos miembros comparten la misma ideología

"partido.2" = Prueba deportiva en la que se enfrentan dos equipos o jugadores

Sistema "partido"

Experimento CODICACH

Se seleccionó una submuestra desde subcorpora Periodismo, perteneciente al corpus CODICACH (Corpus Dinámino del Castellano de Chile) con un conteo de 534.921.215 unidades léxicas disponibles. Cada una de las columnas a partir de las que se organizó el corpus corresponde a las variables corpusID (identificador de la instancia en un archivo digital de CODICACH); source (fuente desde la que se extrae la instancia en el corpus, correspondiente a un medio de comunicación escrito chileno, como periódico o revista); context (ventana de palabras en la que aparece la palabra objetivo); senseID (etiqueta para el sentido de la palabra objetivo en la ventana contextual correspondiente, que a su vez se relaciona con el concepto en COREL extraído desde la base de conocimiento FunGramKB). Todos los sentidos para las 120 instancias correspondientes a cada una de las unidades léxicas en análisis fueron etiquetados manualmente.

Minidiccionarios desde la base de conocimiento FunGramKB

Colecciones de documentos etiquetados para cada unidad léxica

Tareas de procesamiento (archivos .zip para descargar)

Resultados de experimento CODICACH

1. Matrices de confusión para los sentidos de la unidad léxica «cabeza»

Sentido +CHIEF_00 = A person who is in charge; "the head of the whole operation"

+(e1: +BE_00 (x1: +CHIEF_00)Theme (x2: +RULER_00)Referent)
+(e2: +CONTROL_00 (x1)Theme (x3: +COMPANY_00 ^ +ORGANIZATION_00)Referent)

Sentido +HEAD_00 = The upper or front part of the body in animals, contains the face and brains; "he stuck his head out the window"

+(e1: +BE_00 (x1: +HEAD_00)Theme (x2: +EXTERNAL_ORGAN_00)Referent)
+((e2: +BE_02 (x3: 1 +FACE_00)Theme (x4: +FRONT_00)Location)(e3: +BE_02 (x4)Theme (x1)Location)) 
*((e4: +BE_02 (x5: +HAIR_01)Theme (x6: +TOP_00)Location)(e5: +BE_02 (x6)Theme (x1)Location)(e6: +COMPRISE_00 (x7: +HUMAN_00)Theme (x1)Referent)) 
*(e7: +BE_02 (x8: 1 +BRAIN_00)Theme (x1)Location (f1: +IN_00)Position) 
*(e8: +BE_02 (x9: 2 +EAR_00)Theme (x1)Location)

Sentido +INTELLIGENCE_00 = Your ability to think feel and imagine things

+(e1: +BE_00 (x1: +INTELLIGENCE_00)Theme (x2: +COGNITIVE_ATT_00)Referent) 
*(e2: +THINK_00 (x3)Theme (x4)Referent (f1: x1)Means)

Sentido +LEADER_00 = A person who rules or guides or inspires others

+(e1: +BE_00 (x1: +LEADER_00)Theme (x2: +ADULT_00)Referent) 
+(e2: +CONTROL_00 (x1)Theme (x3)Referent)

2. Matrices de confusión para los sentidos de la unidad léxica «cara»

Sentido +FACE_00 = The front of the head from the forehead to the chin and ear to ear; "he washed his face"

+(e1: +BE_00 (x1: +FACE_00)Theme (x2: +BODY_AREA_00)Referent)
*(e2: +BE_02 (x3: 2 +CHEEK_00 & 1 +CHIN_00 & 2 +EYE_00 & 1 +NOSE_00 & 1 +FOREHEAD_00)Theme (x1)Location)

Sentido +SIDE_00 = A surface forming part of the outside of an object; "he examined all sides of the crystal"

+(e1: +BE_00 (x1: +SIDE_00)Theme (x2: +SURFACE_00)Referent)

3. Matrices de confusión para los sentidos de la unidad léxica «carta»

Sentido +CARD_00 = A small piece of thick stiff paper with numbers or pictures on them used to play a particular game

+(e1: +BE_00 (x1: +CARD_00)Theme (x2: +PAPER_00)Referent) 
*(e2: +BE_01 (x1)Theme (x3: +SMALL_00)Attribute)

Sentido +LETTER_00 = A written message addressed to a person or organization; "wrote an indignant letter to the editor"

+(e1: +BE_00 (x1: +LETTER_00)Theme (x2: +DOCUMENT_00)Referent)
+(e2: +WRITE_00 (x3: +HUMAN_00)Theme (x1)Referent) 
*(e3: +PUT_00 (x3)Agent (x1)Theme (x4)Origin (x5: +ENVELOPE_00)Goal (f1: +IN_00)Position (f2: (e3: +SEND_00 (x3)Agent (x1)Theme (x6)Origin (x7)Goal))Purpose)

Sentido $MENU_00 = A list of dishes available at a restaurant; "the menu was in French"

+(e1: +BE_00 (x1: $MENU_00)Theme (x2: +LIST_00)Referent)
+(e2: +KNOW_00 (x3: +HUMAN_00)Theme (x4: (e3: +SELL_00 (x5: +RESTAURANT_00)Agent (x6: +FOOD_00)Theme (x5)Origin (x3)Goal))Referent 
(f1: x1)Instrument)

4. Macro-promedios para los sistemas de desambiguación léxica automática

Sistema	Macro-prom precisión	Macro-prom cobertura	Macro-prom puntaje-F
`cabeza`	37.15%	37.75%	41.15%
`cara`	50.55%	48.95%	48.15%
`carta`	61.07%	59.27%	58.3%

DAMIEN (Data Mining Encountered)

Todos los experimentos fueron realizados utilizando el entorno infomático DAMIEN (DAta MIning ENcountered), que integra técnicas de múltiples disciplinas dentro de análisis de texto (lingüística de corpus, estadística y minería textual) para apoyar la investigación lingüística. La herramienta ha sido desarrollada por Carlos Periñán Pascual (Departamento de Lingüística Aplicada, Universitat Politècnica de València). Es de uso libre, y se encuentra disponible en http://www.fungramkb.com/nlp.aspx. Para más información, se recomienda el artículo Bridging the gap within text-data analytics: a computer environment for data analysis in linguistic research (Periñán-Pascual, 2017).

Diseño y desarrollo de un modelo de desambiguación léxica automática para el procesamiento del lenguaje natural by Fredy Núñez Torres (2021) is licensed under CC BY-NC 4.0

fredyrodrigors / tesis-phd Goto Github PK

tesis-phd's Introduction

Diseño y desarrollo de un modelo de desambiguación léxica automática (Núñez, 2021)

Experimento piloto Senseval-3

Resultados de experimento SENSEVAL-3 para las medidas de reducción de dimesión

Experimento CODICACH

Resultados de experimento CODICACH

1. Matrices de confusión para los sentidos de la unidad léxica «cabeza»

2. Matrices de confusión para los sentidos de la unidad léxica «cara»

3. Matrices de confusión para los sentidos de la unidad léxica «carta»

4. Macro-promedios para los sistemas de desambiguación léxica automática

DAMIEN (Data Mining Encountered)

tesis-phd's People

Contributors

Stargazers

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent

Jobs