View Code? Open in Web Editor
NEW
Материалы курса по компьютерной лингвистике Школы Лингвистики НИУ ВШЭ
Jupyter Notebook 98.73%
HTML 1.27%
compling_nlp_hse_course's Introduction
Материалы курса по компьютерной лингвистике (Natural Language Processing course materials)
- Предобработка текста (Text preprocessing)
Токенизация, лемматизация, стемминг, pymorphy, mystem, regex, razdel.
- Классификация текста (мешок слов) (Bag-of-words classification)
TFIDF, CountVectorizer, LogReg, KNN, DecisionTrees, Naive Bayes, RandomForest, косинусная близость, тональность текста
- Поиск и исправление опечаток (Spellchecking)
Алгоритм Норвига, расстояние Левенштейна, символьные нграммы, SymSpell.
- Базовое языковое моделирование (Basic Language Modelling)
Вероятность слова, Ngram language model, перплексия, генерация текста.
- Тематическое моделирование (Topic modelling)
Матричные разложения (SVD, NMF), LDA, перплексия, когерентность.
- Векторные представления слов (word2vec/fastext) (Word embeddings)
cbow, skip-gram, negative sampling
- Convolutional Neural Networks for text classification
CNN.
- RNN и извлечение именованных сущностей (Named Entity Recognition)
LSTM, GRU, Bidirectional RNN, IOB кодировка, sequence labelling.
- Трансформеры. BERT и GPT (Transformers. BERT and GPT) (BERT, GPT)
Transformer, BERT, HuggingFace, fine-tuning, text generation, sampling parameters (temperature, top_p, top_k)
- Трансформеры. Seq2Seq. Машинный перевод (Transformers. Seq2Seq. Machine Translation)
multi-head attention, encoder-decoder model, bleu score
- Трансформеры. Дообучение на инструкциях (Transformers. Instruct fine-tuning)
alpaca, dolly, flan-t5
- Трансформеры. PEFT
quantization, LoRA, QLoRA
- Multimodality (text and images)
CLIP, BLIP, Idefics, Stable diffusion
- Трансформеры. RLHF, DPO
human feedback, DPO + QLoRA
Архивные jupyter-ноутбуки
Jupyter-notebooks in English
compling_nlp_hse_course's People
compling_nlp_hse_course's Issues
как запустить mystem в колабе? были же проблемы на уровне чуть ли не системных вызовов.
|
"Если вы открыли тетрадку в Colab, нужно установить майстем и майморфи." |