azwiktionary

Извлечение таблиц словоизменения из азербайджанского викисловаря. Работа с корпусом предложений на азербайджанском языке.

/corpus:

corpus_processing.py - обработка корпуса предложений (чистка и создание корпуса слов (types))

corpus_types.txt - корпус уникальных слов

/evaluation_v1 - скрипт и данные для оценки результатов.

/evaluation_v2 - скрипт и данные для оценки результатов (с изменением исходных таблиц словоизменения: оставлены только те словоформы, что встретились в корпусе), позволяет оценить количество правильных парадигм (неполных, так как не все формы могут быть представлены в корпусе)

/linguistica - скрипт для получения сигнатур с помощью библиотеки Linguistica

/wiki_tables - скрипты и данные для выкачивания таблиц словоизменения из Викисловаря:

download_tables.py - скрипт для загрузки таблиц

verbs.txt - список всех глаголов, статьи о которых есть в викисловаре

nouns.txt - список существительных

verbs.json - таблицы в формате json

nouns.json - таблицы в формате json

Статистика:

Глаголы (леммы): 433

Глаголы (формы): 28578

Существительные (леммы): 1286

Существительные (формы): 19776

lemmas_to_lcss.py - замена лемм на наибольшие общие подстроки форм в словарях, созданных с помощью download_tables.py

verbs_lcs.json - словари из verbs.json с НОП вместо лемм

nouns_lcs.json - словари из nouns.json с НОП вместо лемм

compare.py - скрипт для сравнения корпуса с таблицами - сколько словоформ встретилось, сколько лемм.

Результаты:

Уникальных слов в корпусе: 117158

Словоформ в wiki: 48354

Словоформ из wiki, которые есть в корпусе: 7093

Лексем в wiki: 1717

Лексем из wiki, которые есть в корпусе: 1279

Полных парадигм из wiki, которые есть в корпусе: 41

words_with_arcs.txt - данные из дампа fst.

words_with_border.csv - результаты FST_morphology.

svetlana21 / az_morphology Goto Github PK

az_morphology's Introduction

azwiktionary

az_morphology's People

Contributors

Watchers

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent

Jobs