交叉验证的基本思想是把在某种意义下将原始数据(dataset)进行分组, 一部分做为训练集(train set), 另一部分做为验证集(validation set or test set), 首先用训练集对分类器进行训练,再利用验证集来测试训练得到的模型(model),以此来做为评价分类器的性能指标。
- 随机分割 例如:A
交叉验证最简单的方法之一就是实现RandomSpilt类。样本分为两组:训练组和测试组。您可以调整每个组的样本数量。
- 分层随机分割 例如:B
类似于RandomSpilt类样本被划分到两个组:列车组和试验组。样本的分布考虑到了他们的目标,并试图平分他们。您可以调整每个组的样本数量。