我在制药科学领域工作,我的工作是 化合物并通过计算其化学性质或描述符,我们可以预测该化合物的某些生物学功能。我使用 python 和 R 编程语言来实现同样的目的,还使用 Weka 机器学习工具。 Weka 提供使用 SVM 和其他支持算法进行二进制预测的工具。
Ex数据集:训练集
Chem_ID MW LogP HbD HbE IC50 Class_label
001 232 5 0 2 20 0
002 280 2 1 4 41 1
003 240 5 0 2 22 0
004 300 4 1 5 48 1
005 245 2 0 2 24 0
006 255 1 0 2 20 0
007 299 5 1 4 49 1
测试集
Chem_ID MW LogP HbD HbE IC50 Class_label
000 255 1 0 2 20
在 weka 中,很少有算法可以预测“class_label”,或者我们也可以预测特定变量(我们通常预测“IC50”值),scikit-learn 或 python 中的任何其他机器学习库是否具有该功能。如果是的话我们该如何使用它谢谢。
最佳答案
是的,这是一个回归问题。有许多不同的模型可以解决回归问题,从简单的Linear Regression , 至Support Vector Regression或Decision Tree Regressors (还有更多)。
它们的工作原理与二元分类器类似:您为它们提供训练数据,而不是 0/1 标签,而是为它们提供要训练的目标值。在您的情况下,您会将要预测的特征作为目标值,并将其从训练数据中删除。
简短示例:
target_values = training_set['IC50']
training_data = training_set.drop('IC50')
clf = LinearRegression()
clf.fit(training_data, target_values)
test_data = test_set.drop('IC50')
predicted_values = clf.predict(test_data)
关于python - 是否可以使用 scikit-learn 而不是二元分类来预测变量(如果可以)而不是如何预测,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35198612/