r - 如何使用遗传算法优化参数

我想使用 R 中的 GA 来优化 eps 回归 (SVR) 中的三个参数(gamma、cost 和 epsilon)。这是我所做的。

library(e1071)
data(Ozone, package="mlbench")
a<-na.omit(Ozone)
index<-sample(1:nrow(a), trunc(nrow(a)/3))
trainset<-a[index,]
testset<-a[-index,]
model<-svm(V4 ~ .,data=trainset, cost=0.1, gamma=0.1, epsilon=0.1, type="eps-regression", kernel="radial")
error<-model$residuals
rmse <- function(error) #root mean sqaured error
{
  sqrt(mean(error^2))
}
rmse(error)

这里，我将cost、gamma和epsilon分别设置为0.1，但我认为它们不是最佳值。因此，我想采用遗传算法来优化这些参数。

GA <- ga(type = "real-valued", fitness = rmse,
         min = c(0.1,3), max = c(0.1,3),
         popSize = 50, maxiter = 100)

这里，我使用 RMSE 作为适应度函数。但我认为适应度函数必须包含要优化的参数。但是，在SVR中，目标函数太复杂，无法用R代码写出来，我尝试了很长时间但没有成功。同时了解SVR和GA的人，有使用GA优化SVR参数的经验的人，请帮助我。请。

最佳答案

在这样的应用程序中，需要传递要优化其值的参数(在您的情况下，cost、gamma 和 epsilon)作为适应度函数的参数，然后运行模型拟合+评估函数，并使用模型性能的度量作为适应度的度量。因此，目标函数的显式形式并不直接相关。

在下面的实现中，我使用 5 倍交叉验证来估计给定参数集的 RMSE。特别是，由于 GA 包最大化了适应度函数，因此我将给定参数值的适应度值写为减去交叉验证数据集上的平均 rmse。因此，可以获得的最大适应度为零。

这里是:

library(e1071)
library(GA)

data(Ozone, package="mlbench")
Data <- na.omit(Ozone)

# Setup the data for cross-validation
K = 5 # 5-fold cross-validation
fold_inds <- sample(1:K, nrow(Data), replace = TRUE)
lst_CV_data <- lapply(1:K, function(i) list(
    train_data = Data[fold_inds != i, , drop = FALSE], 
    test_data = Data[fold_inds == i, , drop = FALSE]))

# Given the values of parameters 'cost', 'gamma' and 'epsilon', return the rmse of the model over the test data
evalParams <- function(train_data, test_data, cost, gamma, epsilon) {
    # Train
    model <- svm(V4 ~ ., data = train_data, cost = cost, gamma = gamma, epsilon = epsilon, type = "eps-regression", kernel = "radial")
    # Test
    rmse <- mean((predict(model, newdata = test_data) - test_data$V4) ^ 2)
    return (rmse)
}

# Fitness function (to be maximized)
# Parameter vector x is: (cost, gamma, epsilon)
fitnessFunc <- function(x, Lst_CV_Data) {
    # Retrieve the SVM parameters
    cost_val <- x[1]
    gamma_val <- x[2]
    epsilon_val <- x[3]

    # Use cross-validation to estimate the RMSE for each split of the dataset
    rmse_vals <- sapply(Lst_CV_Data, function(in_data) with(in_data, 
        evalParams(train_data, test_data, cost_val, gamma_val, epsilon_val)))

    # As fitness measure, return minus the average rmse (over the cross-validation folds), 
    # so that by maximizing fitness we are minimizing the rmse
    return (-mean(rmse_vals))
}

# Range of the parameter values to be tested
# Parameters are: (cost, gamma, epsilon)
theta_min <- c(cost = 1e-4, gamma = 1e-3, epsilon = 1e-2)
theta_max <- c(cost = 10, gamma = 2, epsilon = 2)

# Run the genetic algorithm
results <- ga(type = "real-valued", fitness = fitnessFunc, lst_CV_data, 
    names = names(theta_min), 
    min = theta_min, max = theta_max,
    popSize = 50, maxiter = 10)

summary(results)

生成结果(对于我指定的参数值范围，可能需要根据数据进行微调):

GA results: 
Iterations             = 100 
Fitness function value = -14.66315 
Solution               = 
         cost      gamma    epsilon
[1,] 2.643109 0.07910103 0.09864132

关于r - 如何使用遗传算法优化参数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32026436/

r - 如何使用遗传算法优化参数

上一篇：r - 如何在 R 中使用 ggplot2 制作默认自定义主题

下一篇：java - 解析 map JSON 值并重新插入回 map