我已经应用了这 4 种方法:
- 训练和测试集。
- K 折交叉验证。
- 留一法叉
- 验证。重复随机测试训练拆分。
“训练集和测试集”方法实现了高精度,但其余方法实现了相同的精度,但低于第一种方法。
最佳答案
每个训练和测试集和交叉验证在特定情况下使用,交叉验证用于比较不同的模型。准确性如果你使用更大的训练数据,总是会增加,这就是为什么有时 Leave One Out Cross 比 K-fold Cross Validation 表现更好,这取决于你的数据集大小,有时取决于你使用的算法using. 另一方面,Train and Test Sets 通常在您不比较不同模型时使用,并且如果运行交叉验证的时间要求不值得,则意味着不需要交叉验证在这种情况下。在大多数情况下,交叉验证是首选,但是,您应该选择哪种方法?这通常取决于您在以处理数据和算法的方式训练数据时的选择,例如您使用随机森林训练数据通常不需要进行交叉验证,但您可以当您使用 Out of Bag estimate 时,您通常不会在 Random Forests 中执行交叉验证,以防万一.
关于python-分割数据集以获得高性能准确性的最佳技术,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58902514/