python-分割数据集以获得高性能准确性的最佳技术

标签 python validation testing split training-data

我已经应用了这 4 种方法:

  1. 训练和测试集。
  2. K 折交叉验证。
  3. 留一法叉
  4. 验证。重复随机测试训练拆分。

“训练集和测试集”方法实现了高精度,但其余方法实现了相同的精度,但低于第一种方法。

我想知道应该选择哪种方法? I tried 4 method

最佳答案

每个训练和测试集交叉验证在特定情况下使用,交叉验证用于比较不同的模型。准确性如果你使用更大的训练数据,总是会增加,这就是为什么有时 Leave One Out CrossK-fold Cross Validation 表现更好,这取决于你的数据集大小,有时取决于你使用的算法using. 另一方面,Train and Test Sets 通常在您不比较不同模型时使用,并且如果运行交叉验证的时间要求不值得,则意味着不需要交叉验证在这种情况下。在大多数情况下,交叉验证是首选,但是,您应该选择哪种方法?这通常取决于您在以处理数据和算法的方式训练数据时的选择,例如您使用随机森林训练数据通常不需要进行交叉验证,但您可以当您使用 Out of Bag estimate 时,您通常不会在 Random Forests 中执行交叉验证,以防万一.

关于python-分割数据集以获得高性能准确性的最佳技术,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58902514/

相关文章:

reactjs - 为什么使用 findBy 时测试失败而使用 waitfor 时测试成功?

python - 如何编写包含持久 C++ 对象的 TensorFlow 自定义操作?

Python : SpaqrlWrapper, 超时?

python - 为什么 python 上的 pmdarima 包中的 auto_arima 函数比 R 上可用的 auto.arima 函数慢得多?

javascript - 如何进行表单验证?

regex - 如何验证正则表达式中两个下划线不在一起

javascript - 将 bool 字符串查询传递给 Django

c# - ASP.Net MVC : How to customize validation message showing

testing - VUE CLI 3 - 使用 Mocha + webpack 测试单文件组件

c# - 我如何对这个自定义 commandlet 进行单元测试