ml-rank's People
ml-rank's Issues
Спринт 15 — 22 октября 2018
- Берём наши три датасета
- Реализуем на них стандартные PCA, ICA, t-SNE и пр.
- Ищем другие способы ортогонализации и whitening датасета.
- Применяем ряд решающих функций: линейную функцию, SVM и деревья в виде xgboost.
- Оформляем скоры в качестве страницы на Wiki.
Не забываем коммитить получившиеся ноутбуки и прочее.
Бинаризация с оптимизацией энтропии
Давайте поймём размер на котором у нас t-sne таки отрабатывает
Там где t-sne не обучается из-за мощностей попробуем понять на какого размера сэмпле оно осиливает.
Давайте натравим нашу текущую ортогонализацию на честный классификационный датасет
В прошлом спринте мы взяли регресионный датасет, бинаризовали в нём таргет и натравили нашу коронную процедуру. Давайте в этот раз возьмём честный датасет с классификацией.
Mutual Information
Почитать и разобраться про mutual information.
Давайте возьмём честный классификационный датасет на два класса
Для других тасок нужен классификационный датасет на два класса, а не на 10. Чисто для скорости.
Выводим доверительные интервалы вместо точечной оценки МО
Честный оптимал сабсет
- Для линейной модели - самые большие коэфф-ты по модулю
Сделать PCA, ICA и LLE на датасете с классификацией
Раз мы начали с классификационног датасета, то давайте и у конкурентов сделаем то же самое. И заполним вики с ними.
Впилить hyperopt или bayesian_optimization
Потюнить параметры обучения с помощью hyperopt или bayesian_optimization, а то у нас сейчас ни один метод FE не дал профита по сравнению с исходными факторами.
Давайте исправим процесс бинаризации факторов
Если бить совсем по медиане, то существуют странные случаи, когда разбиение чисто по медиане даст фигню. Поэтому стоит ввести жадность по методе Игоря.
Делаем процесс ортогонализации в виде кода
По итогам разговора с Игорь Евгеньевичем реализуем алгоритм ортогонализации факторов.
Исправить баг с бинаризацией в коде
Перенести скоры на вики
Давайте оформим получившиеся с прошлой недели скоры на нашей GitHub вики.
Рассчет статистики
- Статистика по .5 разбиению методом hold-out
- Все методы должны использовать одно и то же количество точек для обучения/валидации
Замена RF эстиматора на GBDT
Сделать честные PCA, ICA, t-SNE и LLE на честном классификационном датасете
До этого мы бинаризовали зачем-то регрессионный датасет, вместо честной классификации.
И пытались t-SNE натравить на то, что у нас получалось после бинаризации фичей.
Давайте натравим на исходный факторы датасета. А сам датасет возьмём в котором исходная задача классификация.
Оптимальный сабсет (mlrank)
Поиск оптимальной проекции таргета на пространство ортогональных фичей.
- Энтропия между текущим значением таргета и фичей,
- Посмотреть на веса (обучить модель на всех m оптмальных сабсетах) и отранжировать по значимости коэффициентов,
- Рассмотреть формулировку задачи в итоге обсуждения с Игорем Евгеньевичем.
Тест Манна-Уитни для сравнения статистики
Унификация алгоритма тестирования (проекции)
Пересчитать графики
Доделать процесс ортогонализации фичей
- Первая фича нужна не рандомная, а давайте её выберем квадратом и выбираем его по максимальной кросс-энтропии.
- Нужно не целиком добавлять фичу, а xor с ней от предсказанного значения.
- Все последующие фичи тоже выбираем по максимальной энтропии.
Давайте добавим в качестве бэйзлайна optimal subset на 10 фичей
В результате обсуждений поняли, что оптимальный сабсет на 10 фичей тоже нужен как бэйзлайн. Давайте его сделаем.
Давайте получим график от одной до 10 компонент
Поправить кросс-энтропию
Пересчитать графики с учетом последних замечаний
Унификация алгоритма тестирования (оптимал сабсеты)
В сабсет добавляем XOR между предикшном и таргетом вместо фактора
Давайте опишем процедуру ортогонализации на wiki гитхаба
Опять же по мотивам разговора с Игорь Евгеньевичем в понедельник.
Кросс-энтропия между предикшном и таргетом
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.