常用机器学习数据集划分方法总结
在机器学习模型建立过程中,需要用部分数据去训练,然后为了检验模型效果需要测试数据进行测试,那么改如何划分数据集呢
留出法
留出法思想很简单直接,就是按比例进行分配,一般训练数据:测试数据在 2:1–4::之间。
特点:简单,快速,但不适合较小的数据集
交叉验证法
将数据集分成K等份,用其中的K-1份进行训练,1份进行测试,并进行轮换(共K次),最后返回K次误差的平均值和方差。
假设数据集共M个数据,若M==K 则称为
留一法
适合数据量较小时使用,但运算量巨大。
自助法
其实就是放回抽样,每次从数据集中抽出一份加入到训练集,然后将其放回去(可以被抽到多次),抽N次之后,得到N个数据,剩下没被抽到的作为测试集。(数学证明,会有约1/3的数据未被抽到)。
适合小数据量,保证了足够的训练数据,同时也留出了足够的测试数据。