python - sklearn train_test_split;保留训练集中列中的唯一值

标签 python pandas numpy scikit-learn matrix-factorization

有没有办法使用sklearn.model_selection.train_test_split保留训练集中特定列的所有唯一值。

让我举个例子。我知道的最常见的矩阵分解问题是预测用户在 Netflix Challenge 中所说的电影评分。或 Movielens数据集。现在这个问题并不真正围绕任何单一的矩阵分解方法,但在可能的范围内,有一个小组将只对已知的用户和项目组合进行预测。

例如,在 Movielens 100k 中,我们有 943 个独立用户和 1682 个独立电影。如果我们使用 train_test_split即使 train_size 比率很高(比如 0.9),唯一用户和电影的数量也不会相同。这带来了一个问题,因为我提到的这组方法对于未经训练的电影或用户只能预测 0。这是我的意思的一个例子。

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split

ml = pd.read_csv('ml-100k/u.data', sep='\t', names=['User_id', 'Item_id', 'Rating', 'ts'])
ml.head()   
   User_id  Item_id Rating         ts
0      196      242      3  881250949
1      186      302      3  891717742
2       22      377      1  878887116
3      244       51      2  880606923
4      166      346      1  886397596
ml.User_id.unique().size
943
ml.Item_id.unique().size
1682
utrain, utest, itrain, itest, rtrain, rtest = train_test_split(ml, train_size=0.9)
np.unique(utrain).size
943
np.unique(itrain).size
1644

尽可能多地尝试此操作,您最终不会在火车布景中看到 1682 部独特的电影。这是由于许多电影在数据集中只有一个评分。幸运的是,用户的情况并非如此(用户的最低评分数是 20),所以这不是问题。但是为了有一个有效的训练集,我们需要所有独特的电影至少在训练集中出现一次。此外,我无法将 stratify= kwarg 用于 train_test_split因为所有用户或所有电影的条目不超过 1 个。

我的问题是这样的。

在 sklearn 中有没有办法拆分数据集,以确保来自特定列的唯一值集保留在训练集中?

我对这个问题的初步解决方案如下。

  1. 将总评分数较少/用户的项目分开。
  2. 创建一个 train_test_split在不包括这些很少评分的项目/用户的数据上(确保拆分大小 + 排除大小将等于您想要的拆分大小)。
  3. 将两者结合得到最终的代表性训练集

例子:

item_counts = ml.groupby(['Item_id']).size()
user_counts = ml.groupby(['User_id']).size()
rare_items = item_counts.loc[item_counts <= 5].index.values
rare_users = user_counts.loc[user_counts <= 5].index.values
rare_items.size
384
rare_users.size
0
# We can ignore users in this example
rare_ratings = ml.loc[ml.Item_id.isin(rare_items)]
rare_ratings.shape[0]
968
ml_less_rare = ml.loc[~ml.Item_id.isin(rare_items)]
items = ml_less_rare.Item_id.values
users = ml_less_rare.User_id.values
ratings = ml_less_rare.Rating.values
# Establish number of items desired from train_test_split
desired_ratio = 0.9
train_size = desired_ratio * ml.shape[0] - rare_ratings.shape[0]
train_ratio = train_size / ml_less_rare.shape[0]
itrain, itest, utrain, utest, rtrain, rtest = train_test_split(items, users, ratings, train_size=train_ratio)
itrain = np.concatenate((itrain, rare_ratings.Item_id.values))
np.unique(itrain).size
1682
utrain = np.concatenate((utrain, rare_ratings.User_id.values))
np.unique(utrain).size
943
rtrain = np.concatenate((rtrain, rare_ratings.Rating.values))

这种方法有效,但我只是觉得有一种方法可以通过 train_test_split 实现相同的效果。或 sklearn 的另一种拆分方法。

警告 - 数据包含用户和电影的单个条目

虽然@serv-inc 提出的方法适用于每个类都表示不止一次的数据。该数据不是这种情况,大多数推荐/排名数据集也不是这种情况。

最佳答案

您正在寻找的东西称为分层。幸运的是,sklearn 就是这样。只需将行更改为

itrain, itest, utrain, utest, rtrain, rtest = train_test_split(
     items, users, ratings, train_size=train_ratio, stratify=users)

如果没有设置stratify,数据会随机打乱。见 http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

If [stratify is] not None, data is split in a stratified fashion, using this as the class labels.


更新更新的问题:似乎将唯一实例放入训练集中没有内置在 scikit-learn 中。你可以滥用PredefinedSplit , 或 extend StratifiedShuffleSplit ,但这可能比简单地滚动你自己的更复杂。

关于python - sklearn train_test_split;保留训练集中列中的唯一值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47700151/

相关文章:

python - 合并相同的数据框,以便将每一行与其他每一行进行比较

python - Numpy searchsorted降序

python - numpy 中的自然对数代数

python - 如何在 python 3 中找到笛卡尔元素的总和?

python Pandas : What causes slowdown in different column selection methods?

python - 使用非常大的数组 - Numpy

python - 使用 Voronoi 中心测量复杂形状

php - GAE - wordpress 作为 Python 应用程序内的模块

python - 将 R 函数封装在 python 中

python - 在多列上排名并标记 pandas 观察之间的关系