我想使用机器学习来确定影响净收入
的特征,并根据这些特征从数据中得出结论。数据集是一个汽车共享公司的数据(比如Turo)。数据集包含约 80000 行 14 列。
我很难构建一个 EDA,尤其是使用 ML 算法来找出影响 net_revenue
的特征。
到目前为止我做了什么
我对这些数据做了相关矩阵分析,找出了
'youth driver fee'
与'net_revenue'
具有最相关
的特征( 我将make
和model
列排除在分析之外,因为品牌和型号太多,很难预测它们对net_revenue
的影响)我想看看这种相关性与某些 ML 算法相关,例如
Logistic 回归
和Randomforest
。为了进一步应用 RandomForest ML 来验证这种相关性,我将分类变量(payment_type、returning_guest 和 returning_host)转换为虚拟变量(0 和 1)
所以我尝试按照这个 post 来应用这两个模型
逻辑回归
cols=['driver_age', 'completed_trips', 'vehicle_price', 'lead_time', 'trip_length',
'trip_revenue', 'youth_driver_fee', 'insurance_fee', 'delivery_fee', 'returning_quest_First_time','returning_quest_Repeat','returning_host_First_time','returning_host_repeat']
X=data[cols]
y=data['net_revenue']
from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)
from sklearn.linear_model import LogisticRegression
from sklearn import metrics
logreg = LogisticRegression()
logreg.fit(X_train, y_train)
*逻辑回归的默认设置
LogisticRegression(C=1.0,class_weight=None,dual=False,fit_intercept=True,intercept_scaling=1,max_iter=100,multi_class='ovr',n_jobs=1,penalty='l2',random_state=无,solver='liblinear',tol=0.0001,verbose=0,warm_start=False)
** IPython
notebook 在执行上面的代码后死机了,看起来它永远不会输出任何东西。所以我必须重新启动内核。
随机森林
from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier()
rf.fit(X_train, y_train)
**同样的问题!
我的问题
- 如何建立机器学习模型来寻找影响净收入的特征?是否有解决相同问题的任何资源? Kaggle 比赛绝对不错,或者可能是中等职位。
我找到了一个数据集来预测目标值的特征,但目标值看起来像分类我的是连续的。 来自 https://www.kaggle.com/prasadkevin/prediction-of-quality-of-wine
要使用
LogisticRegression
和RandomForest
,net_revenue
是否必须是分类变量?你碰巧知道 Kaggle 上的类似数据集:)?因为我找不到任何像这样的相关 ML 流程!
如有任何建议,我们将不胜感激!
谢谢
最佳答案
一些事情。
使用任何机器学习模型时,您必须将每个分类变量转换为虚拟变量,而不仅仅是随机森林。
您正在使用 RandomForestClassifier
解决回归问题,这不是您想要的。而是使用 sklearn.ensemble.RandomForestRegressor
。
如果没有出现错误,您的机器学习模型可能正在运行。由于您有 80,000 行,因此可能只需要一段时间。定义模型时,将它们定义为
logreg = LogisticRegression(verbose=1)
和
rf = RandomForestRegressor(verbose=1)
如果模型正在运行,它们会打印出它们的进度,这样您就可以看到发生了什么。
关于python - 寻找影响净收入的特征,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57839546/