The ml-rank from isaintnik

Спринт 15 — 22 октября 2018

Берём наши три датасета
Реализуем на них стандартные PCA, ICA, t-SNE и пр.
Ищем другие способы ортогонализации и whitening датасета.
Применяем ряд решающих функций: линейную функцию, SVM и деревья в виде xgboost.
Оформляем скоры в качестве страницы на Wiki.

Не забываем коммитить получившиеся ноутбуки и прочее.

Бинаризация с оптимизацией энтропии

Давайте поймём размер на котором у нас t-sne таки отрабатывает

Там где t-sne не обучается из-за мощностей попробуем понять на какого размера сэмпле оно осиливает.

Давайте натравим нашу текущую ортогонализацию на честный классификационный датасет

В прошлом спринте мы взяли регресионный датасет, бинаризовали в нём таргет и натравили нашу коронную процедуру. Давайте в этот раз возьмём честный датасет с классификацией.

Mutual Information

Почитать и разобраться про mutual information.

Давайте возьмём честный классификационный датасет на два класса

Для других тасок нужен классификационный датасет на два класса, а не на 10. Чисто для скорости.

Выводим доверительные интервалы вместо точечной оценки МО

Честный оптимал сабсет

Для линейной модели - самые большие коэфф-ты по модулю

Сделать PCA, ICA и LLE на датасете с классификацией

Раз мы начали с классификационног датасета, то давайте и у конкурентов сделаем то же самое. И заполним вики с ними.

Впилить hyperopt или bayesian_optimization

Потюнить параметры обучения с помощью hyperopt или bayesian_optimization, а то у нас сейчас ни один метод FE не дал профита по сравнению с исходными факторами.

Давайте исправим процесс бинаризации факторов

Если бить совсем по медиане, то существуют странные случаи, когда разбиение чисто по медиане даст фигню. Поэтому стоит ввести жадность по методе Игоря.

Делаем процесс ортогонализации в виде кода

По итогам разговора с Игорь Евгеньевичем реализуем алгоритм ортогонализации факторов.

Исправить баг с бинаризацией в коде

Он сейчас создаёт фичи разного размера.
И непонятно, что код будет делать, если у нас разных значений меньше, чем бинов, который мы хотим получить.

Перенести скоры на вики

Давайте оформим получившиеся с прошлой недели скоры на нашей GitHub вики.

Рассчет статистики

Статистика по .5 разбиению методом hold-out
Все методы должны использовать одно и то же количество точек для обучения/валидации

Сделать честные PCA, ICA, t-SNE и LLE на честном классификационном датасете

До этого мы бинаризовали зачем-то регрессионный датасет, вместо честной классификации.
И пытались t-SNE натравить на то, что у нас получалось после бинаризации фичей.
Давайте натравим на исходный факторы датасета. А сам датасет возьмём в котором исходная задача классификация.

Оптимальный сабсет (mlrank)

Поиск оптимальной проекции таргета на пространство ортогональных фичей.

Энтропия между текущим значением таргета и фичей,
Посмотреть на веса (обучить модель на всех m оптмальных сабсетах) и отранжировать по значимости коэффициентов,
Рассмотреть формулировку задачи в итоге обсуждения с Игорем Евгеньевичем.

Тест Манна-Уитни для сравнения статистики

Унификация алгоритма тестирования (проекции)

Пересчитать графики

Доделать процесс ортогонализации фичей

Первая фича нужна не рандомная, а давайте её выберем квадратом и выбираем его по максимальной кросс-энтропии.
Нужно не целиком добавлять фичу, а xor с ней от предсказанного значения.
Все последующие фичи тоже выбираем по максимальной энтропии.

isaintnik / ml-rank Goto Github PK

ml-rank's People

Contributors

Watchers

ml-rank's Issues

Recommend Projects

Recommend Topics

Recommend Org