用SAS进行随机抽样的5种方式
文 | 郑来轶
在构建数据挖掘模型过程中,有时我们无法对所有的整体进行全面研究,有时我们希望将整体划分为训练集、验证集、测试集三份用于不同目的的数据集,甚至在K-折交叉验证中,我们需要把样本随机的划分为K份数据子集。本文介绍SAS的SURVEYSELECT过程和RANUNI函数在随机抽样方面的应用。
1、利用SURVEYSELECT过程进行等比例分层抽样
2、利用SURVEYSELECT过程进行不等比例分层抽样
3、利用SURVEYSELECT过程根据抽样数量进行分层抽样
4、利用随机数函数RANUNI对数据集进行粗略划分
5、利用随机数函数RANUNI对数据集进行精确划分
来自中国统计网