Классификация с помощью дерева решений

Теория

Аккуратность (accuracy) показывает долю верных/неверных ответов.

Точность (precision) показывает долю объектов, распознанных как объекты класса C, действительно являющихся объектами класса C.

Полнота (recall) показывает долю объектов класса C, которые действительно распознаны как объекты класса C.

Мера 𝐹 (𝐹1 или 𝐹-score) показывает гармоническое среднее точности (precision) и полноты (recall).

Эксперименты

Для каждого набора данных были проведены эксперименты, где критерий выбора атрибута разбиения был зафиксирован, а соотношение мощностей обучающей и тестовой выборок варьировалось от 60%:40% до 90%:10% с шагом 10%.

Grades Dataset

Набор Grades содержит сведения об оценках школьников за письменную контрольную работу. Каждая строка содержит перечисленные через запятую следующие данные:

пол ученика (PUPIL_SEX);
класс ученика (PUPIL_CLASS);
процент заданий контрольной работы, оцененных учителем как правильно выполненные (TEACHER_RIGHT);
количество символов "птичка", проставленных учителем (TEACHER_CHK);
количество символов вопроса, проставленных учителем (TEACHER_QUEST);
количество исправлений, сделанных учителем (TEACHER_CORR);
количество исправлений, сделанных учеником (PUPIL_CORR);
количество фактов использования учеником штриха-замазки (PUPIL_STRIP);
итоговая оценка, выставленная учителем (GRADE).

Набор данных содержит 72 строки.

В качестве исследуемого прогноза/класса исследовалась итоговая оценка, выставленная учителем (GRADE).

Метрика	Вывод
Аккуратность (accuracy)	Заметно уменьшается с увеличением тестовой выборки до 30%.
Точность (precision)	Модель относила от 60% до 30% объектов, действительно являющихся положительными, к положительным с увеличением тестовой выборки до 30%. При доле тестовой выборке, равной 20%, классификатор относил 70% объектов к положительным. Показатель ухудшался.
Полнота (recall)	Модель находила от 37% до 20% объектов положительного класса из всех объектов положительного класса с увеличением тестовой выборки до 30%. Показатель ухудшался.
F-мера	Гармоническое среднее между точностью и полнотой. Она стремится к нулю, если точность или полнота стремится к нулю. Заметно уменьшается с увеличением тестовой выборки до 30%.

На графике выше мы можем увидеть, как изменяются значения метрик в зависимости от доли тестовой выборки в наборе данных.

Метрика	Вывод
Аккуратность (accuracy)	Заметно уменьшается с увеличением тестовой выборки до 30%.
Точность (precision)	Модель относила от 85% до 40% объектов, действительно являющихся положительными, к положительным с увеличением тестовой выборки до 30%. Показатель ухудшался.
Полнота (recall)	Модель находила от 50% до 20% объектов положительного класса из всех объектов положительного класса с увеличением тестовой выборки до 30%. Показатель ухудшался.
F-мера	Гармоническое среднее между точностью и полнотой. Она стремится к нулю, если точность или полнота стремится к нулю. Заметно уменьшается с увеличением тестовой выборки до 30%.

Далее представлена матрица ошибок (Confusion Matrix). Индекс Gini. Information Gain.

Ниже представлено дерево решений, в качестве обучающей выборки для построения которого использовалось 100% исходных данных, индекс Gini.

Дерево решений, Information Gain.

Замечание

Во многих случаях метрика "accuracy" является не таким уж хорошим индикатором работоспособности вашей модели. Например, когда не соблюдается баланс классов (в наборе данных больше информации об одном классе, чем о других). В этом случае, модель практически ничего не изучает, а просто предсказывает все как "высший" класс.

В наборе об учениках и их оценках есть дисбаланс классов: оценка "4" встречается 20 раз, в то время как оценка "3-" встречается всего 2 раза. Поэтому нам необходимо обратить внимание на показатели производительности для конкретных классов. Точность (precision) - одна из таких метрик.

Census Income

Набор Census Income содержит данные о результатах переписи населения, в т.ч. о годовом доходе - ниже или выше $50000.

Метрика	Вывод
Аккуратность (accuracy)	С увеличением тестовой выборки практически не изменяется. Значение чуть больше 81%.
Точность (precision)	С увеличением тестовой выборки практически не изменяется. Значение чуть больше 80%.
Полнота (recall)	С увеличением тестовой выборки практически не изменяется. Значение чуть больше 81%.
F-мера	Гармоническое среднее между точностью и полнотой. Она стремится к нулю, если точность или полнота стремится к нулю. Заметно увеличивается (от 78% до 80,5%) с увеличением тестовой выборки до 30%. Затем резко падает.

Метрика	Вывод
Аккуратность (accuracy)	С увеличением тестовой выборки практически не изменяется. Значение чуть больше 80%. При тестовой выборке больше 30% постепенно уменьшается.
Точность (precision)	С увеличением тестовой выборки практически не изменяется. Значение чуть больше 79%. При тестовой выборке больше 30% резко растет.
Полнота (recall)	С увеличением тестовой выборки практически не изменяется. Значение чуть больше 80%. При тестовой выборке больше 30% постепенно уменьшается.
F-мера	Гармоническое среднее между точностью и полнотой. Она стремится к нулю, если точность или полнота стремится к нулю. Заметно увеличивается (от 78% до 80,5%) с увеличением тестовой выборки до 30%. Затем резко падает.

Далее представлена матрица ошибок (Confusion Matrix). Индекс Gini. Information Gain.

Дерево решений, Information Gain. Параметр максимальной высоты дерева - 5.

ellkrauze / decision_tree_classification Goto Github PK

decision_tree_classification's Introduction

Классификация с помощью дерева решений

Теория

Эксперименты

Grades Dataset

Замечание

Census Income

decision_tree_classification's People

Contributors

Watchers

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent