GithubHelp home page GithubHelp logo

svetlana21 / az_morphology Goto Github PK

View Code? Open in Web Editor NEW
0.0 1.0 0.0 8.61 MB

Извлечение таблиц словоизменения из азербайджанского викисловаря.

Python 100.00%

az_morphology's Introduction

azwiktionary

Извлечение таблиц словоизменения из азербайджанского викисловаря. Работа с корпусом предложений на азербайджанском языке.

/corpus:

corpus_processing.py - обработка корпуса предложений (чистка и создание корпуса слов (types))

corpus_types.txt - корпус уникальных слов

/evaluation_v1 - скрипт и данные для оценки результатов.

/evaluation_v2 - скрипт и данные для оценки результатов (с изменением исходных таблиц словоизменения: оставлены только те словоформы, что встретились в корпусе), позволяет оценить количество правильных парадигм (неполных, так как не все формы могут быть представлены в корпусе)

/linguistica - скрипт для получения сигнатур с помощью библиотеки Linguistica

/wiki_tables - скрипты и данные для выкачивания таблиц словоизменения из Викисловаря:

download_tables.py - скрипт для загрузки таблиц

verbs.txt - список всех глаголов, статьи о которых есть в викисловаре

nouns.txt - список существительных

verbs.json - таблицы в формате json

nouns.json - таблицы в формате json

Статистика:

Глаголы (леммы): 433

Глаголы (формы): 28578

Существительные (леммы): 1286

Существительные (формы): 19776

lemmas_to_lcss.py - замена лемм на наибольшие общие подстроки форм в словарях, созданных с помощью download_tables.py

verbs_lcs.json - словари из verbs.json с НОП вместо лемм

nouns_lcs.json - словари из nouns.json с НОП вместо лемм

compare.py - скрипт для сравнения корпуса с таблицами - сколько словоформ встретилось, сколько лемм.

Результаты:

Уникальных слов в корпусе: 117158

Словоформ в wiki: 48354

Словоформ из wiki, которые есть в корпусе: 7093

Лексем в wiki: 1717

Лексем из wiki, которые есть в корпусе: 1279

Полных парадигм из wiki, которые есть в корпусе: 41

words_with_arcs.txt - данные из дампа fst.

words_with_border.csv - результаты FST_morphology.

az_morphology's People

Contributors

svetlana21 avatar

Watchers

James Cloos avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.