方法 | 说明 | |
---|---|---|
无监督分箱 | 等宽分箱 | 将变量的取值范围分为k个等宽的区间,每个区间当作一个分箱。即每个箱的区间范围是一个常量,称为箱子宽度。 |
等频分箱 | 把观测值按照从小到大的顺序排列,根据观测的个数等分为k部分,每部分当作一个分箱。比如说 N=10 ,每个区间应该包含大约10%的实例。 | |
自定义分箱 | 用户可以根据需要自定义区间 | |
聚类分箱 | ||
有监督分箱 | Best-KS分箱 | 基于变量ks指标最优的划分方法 |
卡方分箱 | 有效的特征,不同箱体之间应该具有不同的类分布。卡方分箱就是自底向上,合并类分布相似的相邻箱体,即合并卡方值较小的箱体 | |
最小熵分箱 | 分箱后达到最小熵。使得总体信息的不确定性降到最低 |
itlubber / optimal_binning_methods Goto Github PK
View Code? Open in Web Editor NEW几种常见的特征分箱与可视化的方法
License: MIT License