GithubHelp home page GithubHelp logo

fredyrodrigors / tesis-phd Goto Github PK

View Code? Open in Web Editor NEW
1.0 0.0 0.0 25.19 MB

Propuesta de un modelo de desambiguación léxica automática para PLN (corpus y experimentos)

natural-language-processing corpus-linguistics corpus-data csv-files txt-files xml-xslt dataset

tesis-phd's Introduction

Diseño y desarrollo de un modelo de desambiguación léxica automática (Núñez, 2021)

Este repositorio contiene los archivos .txt, .csv, .xml y .xsl correspondientes a los recursos lingüísticos, los experimentos y los resultados de la implementación de un modelo de desambiguación léxica automática (presentado en el programa de Doctorado en Lingüística de la Facultad de Letras de la Pontificia Universidad Católica de Chile). La presente investigación tiene como objetivo general desarrollar un modelo más robusto de medida para la similitud y relación semántica que los disponibles actualmente para resolver el problema de la desambiguación léxica automática, aplicado al procesamiento del lenguaje natural (PLN).

Mis estudios doctorales fueron patrocinados por la Agencia Nacional de Investigación y Desarrollo (ANID) del Ministerio de Ciencia, Tecnología, Conocimiento e Innovación del Gobierno de Chile, en el marco del Programa de Formación de Capital Humano Avanzado, Beca de Doctorado Nacional 2016 (folio Nº 21160361). La tesis se encuentra disponible en el Repositorio ANID.

logo ANID digital

Los resultados de esta tesis doctoral están vinculados con el desarrollo del módulo de PLN en el proyecto de investigación "Planificación y gestión de recursos hídricos a partir de análisis de datos de IoT (WATERoT)" (RTC 2017-6389-5), financiado por el Ministerio de Economía, Industria y Competitividad (MINECO), Agencia Estatal de Investigación (AEI) y el Fondo Europeo de Desarrollo Regional (FEDER).

logo

Experimento piloto Senseval-3

El corpus utilizado para la tarea de muestra léxica del español en SENSEVAL-3 (Evaluating Word Sense Disambiguation Systems) está formado por 12.625 ejemplos etiquetados, que cubren 25.875 frases y 1.506.233 palabras en total. El contexto considerado para cada ejemplo incluye la palabra objetivo, más una ventana contextual. Todos los ejemplos han sido extraídos desde el corpus del año 2000 de la Agencia Española de Noticias EFE, que incluye 289.066 noticias (2.814.291 frases y 95.344.946 palabras), de enero a diciembre de 2000. Para cada palabra, un mínimo de 200 ejemplos han sido etiquetados manualmente por tres anotadores humanos expertos independientes. Los casos de desacuerdo han sido resueltos por otro lexicógrafo (asignando un sentido único a cada ejemplo). Para la ejecución del experimento de prueba de aprendizaje automático utilizando el algoritmo bayesiano ingenuo, se seleccionaron 120 instancias de la muestra léxica para la palabra objetivo «partido», extraída desde el corpus SENSEVAL-3.

Resultados de experimento SENSEVAL-3 para las medidas de reducción de dimesión

  1. "partido.1" = Organización política cuyos miembros comparten la misma ideología
  1. "partido.2" = Prueba deportiva en la que se enfrentan dos equipos o jugadores
  1. Sistema "partido"

Experimento CODICACH

Se seleccionó una submuestra desde subcorpora Periodismo, perteneciente al corpus CODICACH (Corpus Dinámino del Castellano de Chile) con un conteo de 534.921.215 unidades léxicas disponibles. Cada una de las columnas a partir de las que se organizó el corpus corresponde a las variables corpusID (identificador de la instancia en un archivo digital de CODICACH); source (fuente desde la que se extrae la instancia en el corpus, correspondiente a un medio de comunicación escrito chileno, como periódico o revista); context (ventana de palabras en la que aparece la palabra objetivo); senseID (etiqueta para el sentido de la palabra objetivo en la ventana contextual correspondiente, que a su vez se relaciona con el concepto en COREL extraído desde la base de conocimiento FunGramKB). Todos los sentidos para las 120 instancias correspondientes a cada una de las unidades léxicas en análisis fueron etiquetados manualmente.

Minidiccionarios desde la base de conocimiento FunGramKB

Colecciones de documentos etiquetados para cada unidad léxica

Tareas de procesamiento (archivos .zip para descargar)

Resultados de experimento CODICACH

1. Matrices de confusión para los sentidos de la unidad léxica «cabeza»

Sentido +CHIEF_00 = A person who is in charge; "the head of the whole operation"

+(e1: +BE_00 (x1: +CHIEF_00)Theme (x2: +RULER_00)Referent)
+(e2: +CONTROL_00 (x1)Theme (x3: +COMPANY_00 ^ +ORGANIZATION_00)Referent)

Sentido +HEAD_00 = The upper or front part of the body in animals, contains the face and brains; "he stuck his head out the window"

+(e1: +BE_00 (x1: +HEAD_00)Theme (x2: +EXTERNAL_ORGAN_00)Referent)
+((e2: +BE_02 (x3: 1 +FACE_00)Theme (x4: +FRONT_00)Location)(e3: +BE_02 (x4)Theme (x1)Location)) 
*((e4: +BE_02 (x5: +HAIR_01)Theme (x6: +TOP_00)Location)(e5: +BE_02 (x6)Theme (x1)Location)(e6: +COMPRISE_00 (x7: +HUMAN_00)Theme (x1)Referent)) 
*(e7: +BE_02 (x8: 1 +BRAIN_00)Theme (x1)Location (f1: +IN_00)Position) 
*(e8: +BE_02 (x9: 2 +EAR_00)Theme (x1)Location)

Sentido +INTELLIGENCE_00 = Your ability to think feel and imagine things

+(e1: +BE_00 (x1: +INTELLIGENCE_00)Theme (x2: +COGNITIVE_ATT_00)Referent) 
*(e2: +THINK_00 (x3)Theme (x4)Referent (f1: x1)Means)

Sentido +LEADER_00 = A person who rules or guides or inspires others

+(e1: +BE_00 (x1: +LEADER_00)Theme (x2: +ADULT_00)Referent) 
+(e2: +CONTROL_00 (x1)Theme (x3)Referent)

2. Matrices de confusión para los sentidos de la unidad léxica «cara»

Sentido +FACE_00 = The front of the head from the forehead to the chin and ear to ear; "he washed his face"

+(e1: +BE_00 (x1: +FACE_00)Theme (x2: +BODY_AREA_00)Referent)
*(e2: +BE_02 (x3: 2 +CHEEK_00 & 1 +CHIN_00 & 2 +EYE_00 & 1 +NOSE_00 & 1 +FOREHEAD_00)Theme (x1)Location)

Sentido +SIDE_00 = A surface forming part of the outside of an object; "he examined all sides of the crystal"

+(e1: +BE_00 (x1: +SIDE_00)Theme (x2: +SURFACE_00)Referent)

3. Matrices de confusión para los sentidos de la unidad léxica «carta»

Sentido +CARD_00 = A small piece of thick stiff paper with numbers or pictures on them used to play a particular game

+(e1: +BE_00 (x1: +CARD_00)Theme (x2: +PAPER_00)Referent) 
*(e2: +BE_01 (x1)Theme (x3: +SMALL_00)Attribute)

Sentido +LETTER_00 = A written message addressed to a person or organization; "wrote an indignant letter to the editor"

+(e1: +BE_00 (x1: +LETTER_00)Theme (x2: +DOCUMENT_00)Referent)
+(e2: +WRITE_00 (x3: +HUMAN_00)Theme (x1)Referent) 
*(e3: +PUT_00 (x3)Agent (x1)Theme (x4)Origin (x5: +ENVELOPE_00)Goal (f1: +IN_00)Position (f2: (e3: +SEND_00 (x3)Agent (x1)Theme (x6)Origin (x7)Goal))Purpose)

Sentido $MENU_00 = A list of dishes available at a restaurant; "the menu was in French"

+(e1: +BE_00 (x1: $MENU_00)Theme (x2: +LIST_00)Referent)
+(e2: +KNOW_00 (x3: +HUMAN_00)Theme (x4: (e3: +SELL_00 (x5: +RESTAURANT_00)Agent (x6: +FOOD_00)Theme (x5)Origin (x3)Goal))Referent 
(f1: x1)Instrument)

4. Macro-promedios para los sistemas de desambiguación léxica automática

Sistema Macro-prom precisión Macro-prom cobertura Macro-prom puntaje-F
cabeza 37.15% 37.75% 41.15%
cara 50.55% 48.95% 48.15%
carta 61.07% 59.27% 58.3%

DAMIEN (Data Mining Encountered)

Todos los experimentos fueron realizados utilizando el entorno infomático DAMIEN (DAta MIning ENcountered), que integra técnicas de múltiples disciplinas dentro de análisis de texto (lingüística de corpus, estadística y minería textual) para apoyar la investigación lingüística. La herramienta ha sido desarrollada por Carlos Periñán Pascual (Departamento de Lingüística Aplicada, Universitat Politècnica de València). Es de uso libre, y se encuentra disponible en http://www.fungramkb.com/nlp.aspx. Para más información, se recomienda el artículo Bridging the gap within text-data analytics: a computer environment for data analysis in linguistic research (Periñán-Pascual, 2017).


Diseño y desarrollo de un modelo de desambiguación léxica automática para el procesamiento del lenguaje natural by Fredy Núñez Torres (2021) is licensed under CC BY-NC 4.0

tesis-phd's People

Contributors

fredyrodrigors avatar

Stargazers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.