ods_mts_recsys
Построение рекомендательной системы на основе данных из приложения МТС Kion (взаимодействия пользователей с контентом за период 6 месяцев).
Основной принцип при работе с представленными датасетами
Использовать только базовые библиотеки языка Python без привлечения специализированных инструментов для формирования рекомендаций.
Основные тезисы по итогу проделанной работы
- Очищаем датасет взаимодействий пользователей с контентом от "случайных" просмотров (процент ознакомления с фильмом более 10).
- Берем в расчет только пользователей, которые уже успели посмотреть 5 и более фильмов.
- Тестирование системы проводим всего на нескольких рандомных пользователях (для примера, 10 человек), так как расчет для всех юзеров в группе методом сплошного перебора займет слишком много времени.
- Последнее из просмотренных видео используем как контрольное значение для проверки точности.
- В качестве похожих юзеров отбираем тех лиц, с кем у тестовых пользователей есть более 50 процентов схожих просмотров.
- Возраст, доход и пол каждого из найденных кандидатов сравниваем с известными данными по тестовым пользователям. Пропускаем в итоговую выборку тех, кто имеет 2 и более соответствий. Если часть параметров не указана, то юзер остается в датафрейме без проверки.
- В рамках каждого кластера (все строки, связанные каким-либо тестовым пользователем) находим число упоминаний фильмов и сортируем полученную информацию по убыванию этого значения.
- Удаляем из датесета уже просмотренные тестовыми юзерами позиции.
- Выводим 7 самых рейтинговых рекомендаций для каждого кластера (юзера).
- Оцениваем количество матчинговых пар в финальной таблице.
Основной вывод касательно точности представленной модели
При повторных запусках пересчета всего ноутбука модель демонстрирует различную точность в предсказаниях возможных последующих просмотров. Это может свидетельствовать о том, что успех работы всей представленной системы во многом зависит от того, насколько успешным будет первоначальный выбор тестовых кандидатов.