python - SciKit-learn (python)--创建我的数据集

标签 python scikit-learn

我已经安装了scikit-learn,但不知道如何使用。我有一些数据如下:

{"Tiempo": 2.1,  "Brazos": "der", "Puntuacion ": 112, "Nombre": "Alguien1"},
{"Tiempo": 4.1, "Brazos": "izq", "Puntuacion ": 11, "Nombre": "Alguien2"},
{"Tiempo": 3.211,  "Brazos": "ambos","Puntuacion ": 1442, "Nombre": "Alguien3"}

我想在它们上使用一些分类器(如 SVM)。对于我在示例中看到的内容,我需要创建一个数据集。在示例中,他们总是使用一些预先确定的数据集作为“iris”。就我而言,我想我需要使用我的数据创建自己的。为了做到这一点,我进行了搜索,发现我应该使用下一个函数来获取数据集的“特征”:

measurements = [
    {'city': 'Dubai', 'temperature': 33.},
    {'city': 'London', 'temperature': 12.},
    {'city': 'San Fransisco', 'temperature': 18.},
]

from sklearn.feature_extraction import DictVectorizer
vec = DictVectorizer()

vec.fit_transform(measurements).toarray()
array([[  1.,   0.,   0.,  33.],
       [  0.,   1.,   0.,  12.],
       [  0.,   0.,   1.,  18.]])

>>> vec.get_feature_names()
['city=Dubai', 'city=London', 'city=San Fransisco', 'temperature']

就我而言,在使用该函数处理我的数据后,我得到: enter image description here

一旦我有了这个,我想我需要获取我的“样本”,但是,我不知道该怎么做。请问你能帮帮我吗?你能告诉我我的假设是否正确吗?

最佳答案

您走在正确的道路上。以您的数据为例。

from sklearn.feature_extraction import DictVectorizer

# your data
data = [{"Tiempo": 2.1,  "Brazos": "der", "Puntuacion ": 112, "Nombre": "Alguien1"}, {"Tiempo": 4.1, "Brazos": "izq", "Puntuacion ": 11, "Nombre": "Alguien2"}, {"Tiempo": 3.211,  "Brazos": "ambos","Puntuacion ": 1442, "Nombre": "Alguien3"}]

# make dummy for categorical variables
transformer = DictVectorizer()
transformer.fit_transform(data).toarray()

Out[168]: 
array([[  0.0000e+00,   1.0000e+00,   0.0000e+00,   1.0000e+00,   0.0000e+00,
          0.0000e+00,   1.1200e+02,   2.1000e+00],
       [  0.0000e+00,   0.0000e+00,   1.0000e+00,   0.0000e+00,   1.0000e+00,
          0.0000e+00,   1.1000e+01,   4.1000e+00],
       [  1.0000e+00,   0.0000e+00,   0.0000e+00,   0.0000e+00,   0.0000e+00,
          1.0000e+00,   1.4420e+03,   3.2110e+00]])

transformer.get_feature_names()

Out[170]: 
['Brazos=ambos',
 'Brazos=der',
 'Brazos=izq',
 'Nombre=Alguien1',
 'Nombre=Alguien2',
 'Nombre=Alguien3',
 'Puntuacion ',
 'Tiempo']

所以你看,Out[168] 中的每条记录都有 8 列,前 3 列是 Brazos 的分类虚拟(查看 中的功能名称) Out[170]),接下来的三个是 Nombre 的虚拟值,最后两个是连续数值 PuntuacionTiempo (不需要任何转换并保持原样)。

# to continue to fit the model, transform your raw JSON data to numeric value
X = transformer.fit_transform(data)
# import your estimator
from sklearn.naive_bayes import BernoulliNB
estimator = BernoulliNB()
# then start to fit and predict
# NOTE! require your y labels
estimator.fit(X, y)

关于python - SciKit-learn (python)--创建我的数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31055384/

相关文章:

python - 如何从 URL 中通过其 ID 获取单个资源?

Python:尝试创建 unix 命令行可执行文件的简单示例 - 为什么它不起作用?

python - 如何使用 pandas melt 获取值及其错误

python - 如何在 Sklearn 管道中使用 SMOTE 来解决 NLP 分类问题?

python - 最重要的特征 高斯朴素贝叶斯分类器 python sklearn

python - 尝试在 ubuntu 14.04 上为 python 2.7 安装大多数 voip api 会出现几个未知的 gnu linux 错误

python - 关于 Python 中 "=="和 "!="链接的规则是什么

python - 结合两个机器学习模型的结果

python - 这个命令 "preprocessing.scale"在数学方面如何做?

python - Numpy 数组 python 维度统一