Code Monkey home page Code Monkey logo

ml-rank's People

Contributors

arthurnage avatar isaintnik avatar peter-pogorelov avatar

Watchers

 avatar  avatar  avatar  avatar  avatar

ml-rank's Issues

Спринт 15 — 22 октября 2018

  1. Берём наши три датасета
  2. Реализуем на них стандартные PCA, ICA, t-SNE и пр.
  3. Ищем другие способы ортогонализации и whitening датасета.
  4. Применяем ряд решающих функций: линейную функцию, SVM и деревья в виде xgboost.
  5. Оформляем скоры в качестве страницы на Wiki.

Не забываем коммитить получившиеся ноутбуки и прочее.

Mutual Information

Почитать и разобраться про mutual information.

Впилить hyperopt или bayesian_optimization

Потюнить параметры обучения с помощью hyperopt или bayesian_optimization, а то у нас сейчас ни один метод FE не дал профита по сравнению с исходными факторами.

Исправить баг с бинаризацией в коде

Он сейчас создаёт фичи разного размера.
И непонятно, что код будет делать, если у нас разных значений меньше, чем бинов, который мы хотим получить.

image

Рассчет статистики

  1. Статистика по .5 разбиению методом hold-out
  2. Все методы должны использовать одно и то же количество точек для обучения/валидации

Сделать честные PCA, ICA, t-SNE и LLE на честном классификационном датасете

До этого мы бинаризовали зачем-то регрессионный датасет, вместо честной классификации.
И пытались t-SNE натравить на то, что у нас получалось после бинаризации фичей.
Давайте натравим на исходный факторы датасета. А сам датасет возьмём в котором исходная задача классификация.

Оптимальный сабсет (mlrank)

Поиск оптимальной проекции таргета на пространство ортогональных фичей.

  1. Энтропия между текущим значением таргета и фичей,
  2. Посмотреть на веса (обучить модель на всех m оптмальных сабсетах) и отранжировать по значимости коэффициентов,
  3. Рассмотреть формулировку задачи в итоге обсуждения с Игорем Евгеньевичем.

Доделать процесс ортогонализации фичей

  1. Первая фича нужна не рандомная, а давайте её выберем квадратом и выбираем его по максимальной кросс-энтропии.
  2. Нужно не целиком добавлять фичу, а xor с ней от предсказанного значения.
  3. Все последующие фичи тоже выбираем по максимальной энтропии.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.