esokolov / ml-course-hse Goto Github PK

Машинное обучение на ФКН ВШЭ

Jupyter Notebook 95.59% Python 0.17% TeX 4.18% PostScript 0.05%

ml-course-hse's Issues

Семинар 9, кажется знак потеряли

Страница 5, в самом конце, последний переход в вычислении s для логистической функции потерь.
Для простоты обозначим y_{i} * a_{N - 1}(x_{i}) за x, теперь проделаем последний переход:
(sigmoid(x) - 1) * y = (1 / (1 + exp(-x)) - 1) * y = ( (1 - 1 - exp(-x)) / (1 + exp(-x)) ) * y =
= ( (-exp(-x)) / (1 + exp(-x)) ) * y = ( -1 / (exp(x) + 1) ) * y = -y / (exp(x) + 1) != y / (exp(x) + 1)

Теор.дз №9, второе неравенство

Есть несколько вопросов к выводу неравенства из номера 3. Во-первых, в формуле (0.6) явно потерялось деление на двойку в правой части. Во-вторых, для использования этого неравенства выпуклость $\phi$ не нужна, зато она нужна в первом неравенстве формулы (0.8) – мне кажется, что стоило бы явно написать, какое свойство/определение выпуклых функций было использовано в этом переходе, раз уж приводится решение.

МО по моделям

Лекция 8, Задача 3.1. В телеграмме обсуждали, что не совсем ясно куда пропадает случайность от бутстрапа при взятии МО только по всем выборкам.

Лекция 4, стр.2 формула (1.1)

В формуле пропущено sign у скалярного произведения весов на признаки.

Семинар 9. Функционал ошибки и функционал качества.

В 9 семинаре в разделе про построение градиентного бустинга, кажется, перепутаны термины - функционал ошибки и функционал качества

FFM (лекция 19)

Предпоследняя строчка перед списком литературы — должно быть x_{j_1}, x_{j_2} вместо x_1, x_2

Лекция 2

В моменте где доказывается что градиент ортогонален линиям уровня где обе части равенства делятся на эпсилон, надо делить на норму от эпсилонта, а не на эпсилон.

Лекция 18 - опечатка в формуле

В лекции 18, самый верх 3 страницы - в формуле для гауссова ядра, видимо, должно быть z^2 вместо r^2

Случайный лес, веса объектов.

Лекция 8, стр. 10. В формуле ответа композиции, в итоговой формуле, во внутренней сумме, видимо, либо суммирование по n, либо индекс у w должен быть j.

Опечатка в энтропийном критерии.

В лекции 7, в определении критерия информативности минус должен быть внутри оптимизации.

Лекция 13

Предпоследний абзац ядровых методов на стр. 1 — "после ее проецирования на исходное пространствА"

ДЗ 3, опечатка в задании 12

В задании 12:

4й датасет называется nursery, а не nurcery
В описании 4го датасета не такие значения ответов, должно быть написано "читаем, что not_recom и recommend - класс 0, very_recom, priority, spec_prior - класс 1"

Корреляция между товарами

В середине стр. 2 лекции 19, вероятно, имеется в виду w_{ij}, а не w_{uv}, а суммирование под радикалами в знаменателе ведется по u, а не по i

Лекция 12, t-SNE, опечатки в формуле для p(i | j)

В выражении для нормированных близостей p(i | j) (середина 4-й страницы) опечатки: аргументы экспонент нужно взять со знаком "-", а ещё сигмы должны быть в квадрате.

Лекция 12

Лекция 12, страница 4, предложение перед формулой p(i|j) :

Отнормируем эти близости так, чтобы получить распределений расстояний от объ-
екта xj до всех остальных объектов:

Пропущено слово "вектор" перед "распределений".

Лекция 4.

Страница 7:
"...доля правильных ответов должна быть равна 2.000/1.000.000 = 99.8%"
Забыли вычесть 2.000/1.000.000 из единицы

Лекция 12, индекс Данна

В числителе неравенство должно быть строгим, иначе считается расстояние кластера самим с собой.

Лекция 6, стр 5

Наверху страницы: вместо multi-class classification -- multi-label classification.

Опечатка в дз4, метрики качества

"метрика не должна учитывать истинные значения меток объектов, попавших в кластер (в случае, если истинные метки известны)"

Видимо, должна.

ДЗ#3, разделение в вершине

Мы считаем критерий Джини для каждого разбиения - но он меняется при смене порога для правого и левого дерева, а не вершины. Из этого получается, что ответом тогда должен быть функционал качества, использующий посчитанные критерии для поддеревьев. Как понимаю, в Q(R) не используется H(R_m) как раз ввиду константности.

Лекция 3, опечатка в формуле

В лекции 3, стр. 5, раздел "Штрафы при малых весах"
в обеих формулах по L2-норму нужно убрать верхний индекс

Лекция 9 (бустинг)

Кажется, в последней формуле по регрессии (вычисление антиградиента) не должно быть суммы в производной, ведь мы считаем i-тую компоненту.
И вопрос: почему в этом же разделе в MSE множитель 1/2, а не 1/L?

Лекция 14

В методе Нистрома опечатка - нет такого ядрового преобразования.

ДЗ#3, задание 15

Задание называется "Число деревьев в случайном лесе и в градиентном бустинге", но в условии речь только о RF.

Лекция 5, последняя формула

Пропущена константа и знак суммы перед max.

ДЗ 4, критерий отбора количества кластеров

Не очень понятна фраза:

при фиксированной метрике качества для разного числа кластеров обучают алгоритм и выбирают то значение гиперпараметра, начиная с которого качество "стабилизируется"

При увеличении числа классов от 1 до samples_num метрика качества сначала возрастает, затем убывает.
Правильно ли я понимаю, что следует выбирать количество по максимуму метрики качества? Как следует интерпретировать "стабилизацию"?

Дз 3, деревья

Похоже, условием задачи на реализацию класса DecisionTree не учтено, что в выборке, в принципе, могут найтись два объекта с идентичным признаковым описанием и разными ответами. В таком случае требование выдавать класс объектов в листе некорректно. Связанный момент – стоит, наверное, уточнить, что должен возвращать стандартный вариант функции find_best_split, получив постоянный признак – кажется, например, что сгодится -inf оптимальный Джини, остальные возвращаемые значения None.

Лекция 13. Двойственное представление для линейной регрессии

Сначала записывается опт. задача для линейной регрессии через параметр Ф и получается обычная задача для линейной регрессии с квадратичной функцией потерь, потом говорится, что w=(Ф.T)a и ниже "можно показать, что оптимальное а=(Ф.TФ+lambda*I)^(-1)*y".

Тогда получается, что оптимальный вектор весов: w= (Ф.T)a=(Ф.T)(Ф.T * Ф+lambda*I)^(-1)*y.
Но это же не правда, оптимальный вектор весов должен быть (Ф.T * Ф+lambda * I)^(-1) (Ф.T) * y ?

Скобочки.

В https://github.com/esokolov/ml-course-hse/blob/master/2016-fall/lecture-notes/lecture08-ensembles.pdf:

На стр.4 в первой выкладке МО по x должно браться по всему выражению, однако скобки говорят об обратном.
кажется, что в формуле (2.4) в последних двух слагаемых можно убрать МО по y.

Лекция 7, неточность при описании алгоритма

В лекции 7, на странице 3, при разбиении X на R_1 и R_2, в одном случае должно стоять строгое равенство. Потому что по крайней мере некоторые функционалы качества могут считать оптимальным t, равное значению j-го признака.

Лекция 11

Лекция 11, Страница 2, Последнее предложение перед началом 2го раздела "Обучение и обратное распространение ошибк"

О примерах слоёв них мы поговорим позже, а пока обсудим обучение графов
вычислений в общем случае.

По-моему надо "в них"

Лекция 16 - опечатка в формуле

Внизу 1 страницы, "значит, векторы $u_j = \lambda^{1/2}...$" - должно быть $\lambda_j$

Лекции в исходниках

Было бы удобно, если бы лекции были выложены в исходниках (TeX), чтобы вместо создания issue можно было просто предложить Pull Request.

Оценивание математического ожидания в ДЗ - 3

Вот здесь: https://github.com/esokolov/ml-course-hse/blame/master/2016-fall/homeworks-practice/homework-practice-03-ensembles.ipynb#L27

Кажется, что для оценивания мат.ожинания нужно не только складывать значения функции, а еще и делить на M, чтобы итоговая сумма все таки сошлась к искомому мат.ожиданию. Именно так и делается дальше, однако в формуле стоит просто сумма значений функции.

Опечатка в ДЗ#3

В номере 15 по условию используется 100, 110 ... 5000 деревьев, в примере же говорится об обучении 10, 20 ... 5000 деревьев.

Лекция 7

Не совсем понятно, когда речь идет о категориальных признаках("Обозначим через Rm(u) множество объектов, которые попали в вершину m и у которых j-й признак имеет значение u"), при чем тут j - видимо есть опечатка.

Лекция 7, стр. 2, пропущено слово

• каждой листовой вершине v приписан прогноз c_v ∈ Y (в случае с классифика-
цией листу также может быть приписан вектор вероятностей).

Лекция 14 - опечатка в формуле

В самой последней формуле на 2й странице, видимо, должно быть a(x_j) вместо a(x_k)

А на 4 странице: "используя эти векторы, мы можем сформировать аппроксимацию преобразования phi(x)" - пропущен бэкслэш, должно быть \phi(x)

Лекция 7, раздел 3

В самой первой строчке курсивом - функционал ошибки. Видимо, имеется в виду функционал качества.

Мелкие опечатки в лекциях

Лекция 13
- с1, "исходное пространства" -> "пространство"
Лекция 12
- с2, "задачу кластеризацию" -> "кластеризации"
- с2, "в данном функционале имеет две степени свободы" -> "имеется"
Лекция 9
- с1, "по некоторому подмножество" -> "подмножеству"
Лекция 8
- с1, "дана конечная выборка и вещественными ответами" -> "с"
- c5, "чувствительность метода обучения к изменения в выборке" -> "изменениям"

ДЗ#3

В задании 2 говорится об "усредненной по всем деревьям зависимости". Она должна быть одна для всех графиков, или пересчитывать в зависимости от количества опытов?

ДЗ#3, Пропуски в данных

При организации своего дерева не уточнено, что делать с пропусками в данных.
Надо ли проводить их обработку или можно их заполнить перед обучением дерева?

Лекция №8, вывод Bias-Variance decomposition: забыт (x)

В формулах раздела 2 (Bias-Variance decomposition) начиная со страницы 4 встречается следующая опечатка: после $\mu(X)$ забыт $(x)$. Например, в ненумерованной формуле после формулы (2.1) присутствует выражение $(y-\mu(X))^2$, не имеющее смысла, поскольку $\mu(X)$ — это алгоритм, а $y$ — вектор. Здесь нужно написать $(y-\mu(X)(x))^2$. И далее нужно внести аналогичные исправления в последующие формулы.

Определение метода обучения.

В Лекции 8, стр. 4, в определении метода обучения в области определения должно быть (X•Y)^l .

Семинар 18 - опечатки в формулах

На странице 2, при выводе оценки ковариационной матрицы, после фразы "найдём производную по $\Lambda$ и приравняем её к нулю":

Производная везде должна браться по Lambda, а не по Sigma
Суммирование везде должно быть по i = 1 ... l, а не i = 1 ... m

Рассмотрим задачу минимизации квадратичной функции потерь:

Мы вроде функционал качества/ошибки минимизируем.

esokolov / ml-course-hse Goto Github PK

ml-course-hse's Issues

Recommend Projects

Recommend Topics

Recommend Org

Jobs