模型评估 K-s曲线值变化有什么规律？

2020/09/28 06:23

K-s是模型验证的最常用的“武器”之一，而K-s曲线指洛伦兹曲线之间的差值。

K-S曲线主要是验证模型的区分能力，通常是在模型预测全体样本的信用评分后，将全体样本按违约与非违约分为两部分，然后用K-S统计量来检验这两组样本信用评分的分布是否有显著差异。

K-S曲线中的最大值被称为K-S统计量，其取值在0到1之间。如果是随机抽样，好人的洛伦兹曲线跟坏人的是重合的，K-S统计量为0。

K-S统计量越大，表示模型能够把“好”和“坏”区分开来的程度越大，而最理想的风控模型，K-S统计量的值为1。

K-S曲线实际上就是把阈值作为横坐标，TPR和FPR，也就是召回率和虚警率，其实也就是ROC曲线的那两个变量，同时作为纵坐标，随着阈值的变化，召回和虚警都从0到1，这时候，两者距离最远的地方就是KS值。当把虚警那条曲线拉直，然后让召回随着虚警也对应地变化，那么得到的其实就是ROC曲线。