python-分割数据集以获得高性能准确性的最佳技术

标签 python validation testing split training-data

我已经应用了这 4 种方法:

训练和测试集。
K 折交叉验证。
留一法叉
验证。重复随机测试训练拆分。

“训练集和测试集”方法实现了高精度，但其余方法实现了相同的精度，但低于第一种方法。

我想知道应该选择哪种方法？

最佳答案

每个训练和测试集和交叉验证在特定情况下使用，交叉验证用于比较不同的模型。准确性如果你使用更大的训练数据，总是会增加，这就是为什么有时 Leave One Out Cross 比 K-fold Cross Validation 表现更好，这取决于你的数据集大小，有时取决于你使用的算法using. 另一方面，Train and Test Sets 通常在您不比较不同模型时使用，并且如果运行交叉验证的时间要求不值得，则意味着不需要交叉验证在这种情况下。在大多数情况下，交叉验证是首选，但是，您应该选择哪种方法？这通常取决于您在以处理数据和算法的方式训练数据时的选择，例如您使用随机森林训练数据通常不需要进行交叉验证，但您可以当您使用 Out of Bag estimate 时，您通常不会在 Random Forests 中执行交叉验证，以防万一.

关于python-分割数据集以获得高性能准确性的最佳技术，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58902514/

上一篇：testing - 软件:质量保证VS质量科学？

下一篇：java - 在 Eclipse 中运行 Selenium 时在哪里可以找到 System.out.println 输出？

python - 如何编写包含持久 C++ 对象的 TensorFlow 自定义操作？

Python : SpaqrlWrapper, 超时？

python - 为什么 python 上的 pmdarima 包中的 auto_arima 函数比 R 上可用的 auto.arima 函数慢得多？

javascript - 如何进行表单验证？

regex - 如何验证正则表达式中两个下划线不在一起

javascript - 将 bool 字符串查询传递给 Django

c# - ASP.Net MVC : How to customize validation message showing

testing - VUE CLI 3 - 使用 Mocha + webpack 测试单文件组件

c# - 我如何对这个自定义 commandlet 进行单元测试