Code Monkey home page Code Monkey logo

lab-2-data-analysis's Introduction

Методы снижения размерности (PCA, MDS)

Задача. В Excel таблице собраны персональные данные клиентов банка. Столбцы таблицы отражают следующие сведения о клиенте

1 2 3 4 5 6
Возраст (лет) Количество иждивенцев Доход (руб./мес.) Срок проживания в регионе (лет) Оценка автомобиля заемщика (USD) Размер кредита (тыс. руб.)

Данные.

Выполнить первичную обработку данных. Сделать первые выводы.

Снижение размерности с помощью PCA

  • Выполнить центрирование данных и такую нормировку, что евклидова норма каждого признака равна 1 (полученная матрица обозначается через Z).
  • Найти SVD разложение матрицы Z (матрицы U, S, V). Докажите, что при выбранной нормировке, коэффициенты разложения столбцов матрицы Z по скрытым факторам являются корреляциями этих столбцов и скрытых факторов.
  • Исследуйте, сколько скрытых факторов (главные факторы) достаточно для хорошей аппроксимации матрицы данных Z. Заменить значения исходных признаков линейными комбинациями главных факторов (матрица Z k , k – число главных факторов). Оценить погрешность аппроксимации в евклидовой матричной норме и норме Фробениуса.
  • Сравнить матрицы корреляций признаков для матрицы Z и матрицы Z k . Оценить качество аппроксимации по близости матриц корреляций (можно использовать относительную погрешность в одной из матричных норм)
  • Используя выделенные главные факторы, найти представления клиентов векторами меньшей размерности (размерности k).
  • Используя представление клиентов векторами меньшей размерности, построить карту клиентов. Сделать выводы о клиентах банка.

Интерпретация скрытых факторов.

  • Выписать матрицу коэффициентов разложения признаков z j по главным факторам. Исследовать структуру этой матрицы с целью выделения групп признаков тесно связанных с каждым из главных факторов.
  • На основе анализа структуры матрицы коэффициентов разложения, предложить интерпретацию выделенным главным факторам.
  • Дать интерпретацию построенной выше карте клиентов.
  • Выполнить вращения в пространстве главных факторов с целью улучшения структуры матрицы коэффициентов разложения признаков z j по главным факторам. В случае улучшения структуры, найти новое представление клиентов векторами меньшей размерности (размерности k). Построить улучшенную карту клиентов и дать ее интерпретацию.

Снижение размерности с помощью MDS

  • Предложите способ вычисления расстояния между клиентами и вычислите матрицу расстояний.
  • Проверьте, можно ли клиентов банка поместить в евклидово пространство размерности 2 с сохранением расстояний между клиентами.
  • используйте любой из алгоритмов MDS для размещения объектов в евклидовом пространстве размерности 2. Оцените погрешность такого размещения. Постройте карту клиентов.
  • Сравните с картами клиентов из предыдущих пунктов и сделайте выводы.

lab-2-data-analysis's People

Contributors

iamilyasedunov avatar virtualroyalty avatar

Stargazers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.