0%

机器学习数据集划分方法

常用机器学习数据集划分方法总结

在机器学习模型建立过程中,需要用部分数据去训练,然后为了检验模型效果需要测试数据进行测试,那么改如何划分数据集呢

留出法

留出法思想很简单直接,就是按比例进行分配,一般训练数据:测试数据在 2:1–4::之间。

特点:简单,快速,但不适合较小的数据集

交叉验证法

将数据集分成K等份,用其中的K-1份进行训练,1份进行测试,并进行轮换(共K次),最后返回K次误差的平均值和方差。

假设数据集共M个数据,若M==K 则称为留一法

适合数据量较小时使用,但运算量巨大。

自助法

其实就是放回抽样,每次从数据集中抽出一份加入到训练集,然后将其放回去(可以被抽到多次),抽N次之后,得到N个数据,剩下没被抽到的作为测试集。(数学证明,会有约1/3的数据未被抽到)。

适合小数据量,保证了足够的训练数据,同时也留出了足够的测试数据。