在机器学习模型建立过程中,需要用部分数据去训练,然后为了检验模型效果需要测试数据进行测试,那么改如何划分数据集呢
留出法
留出法思想很简单直接,就是按比例进行分配,一般训练数据:测试数据在 2:1–4::之间。
特点:简单,快速,但不适合较小的数据集
交叉验证法
将数据集分成K等份,用其中的K-1份进行训练,1份进行测试,并进行轮换(共K次),最后返回K次误差的平均值和方差。
假设数据集共M个数据,若M==K 则称为
留一法
适合数据量较小时使用,但运算量巨大。
自助法
其实就是放回抽样,每次从数据集中抽出一份加入到训练集,然后将其放回去(可以被抽到多次),抽N次之后,得到N个数据,剩下没被抽到的作为测试集。(数学证明,会有约1/3的数据未被抽到)。
适合小数据量,保证了足够的训练数据,同时也留出了足够的测试数据。
- 本文链接:https://qylh.xyz/2022/03/08/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E6%95%B0%E6%8D%AE%E9%9B%86%E5%88%92%E5%88%86%E6%96%B9%E6%B3%95/
- 版权声明:本博客所有文章除特别声明外,均默认采用 许可协议。