python - 是否可以使用 scikit-learn 而不是二元分类来预测变量(如果可以)而不是如何预测

标签 python machine-learning scikit-learn

我在制药科学领域工作,我的工作是 化合物并通过计算其化学性质或描述符,我们可以预测该化合物的某些生物学功能。我使用 python 和 R 编程语言来实现同样的目的,还使用 ​​Weka 机器学习工具。 Weka 提供使用 SVM 和其他支持算法进行二进制预测的工具。

Ex数据集:训练集

Chem_ID   MW LogP HbD HbE IC50 Class_label
  001    232  5    0   2    20    0
  002    280  2    1   4    41    1
  003    240  5    0   2    22    0
  004    300  4    1   5    48    1
  005    245  2    0   2    24    0
  006    255  1    0   2    20    0
  007    299  5    1   4    49    1

测试集

Chem_ID  MW   LogP HbD HbE IC50 Class_label
    000   255  1    0   2    20    

在 weka 中,很少有算法可以预测“class_label”,或者我们也可以预测特定变量(我们通常预测“IC50”值),scikit-learn 或 python 中的任何其他机器学习库是否具有该功能。如果是的话我们该如何使用它谢谢。

最佳答案

是的,这是一个回归问题。有许多不同的模型可以解决回归问题,从简单的Linear Regression , 至Support Vector RegressionDecision Tree Regressors (还有更多)。

它们的工作原理与二元分类器类似:您为它们提供训练数据,而不是 0/1 标签,而是为它们提供要训练的目标值。在您的情况下,您会将要预测的特征作为目标值,并将其从训练数据中删除。

简短示例:

target_values = training_set['IC50']
training_data = training_set.drop('IC50')

clf = LinearRegression()
clf.fit(training_data, target_values)

test_data = test_set.drop('IC50')

predicted_values = clf.predict(test_data)

关于python - 是否可以使用 scikit-learn 而不是二元分类来预测变量(如果可以)而不是如何预测,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35198612/

相关文章:

python - 余弦相似度

Python - 用匹配的对值替换正则表达式匹配

python - django 如何从子关系中获取字段到父模板中

python - 从多类分类的混淆矩阵计算真阳性值

python - 我应该同时进行词形还原和词干提取吗?

python - 使用 CountVectorizer 连接自定义功能

python - 将一列拆分为两列

pandas - 有没有办法使用 Pandas 或 Matplotlib 绘制 Pandas 时间序列密度?

python - 安装sklearn时出错

python - Sklearn - 无法在随机森林分类器中使用编码数据