python-3.x - 如何在Python中对没有标题的大型csv信号文件进行分类？

标签 python-3.x pandas machine-learning classification

我有一个大的 csv 文件 (3000*20000)，其中包含没有标题的数据，我添加了一列来表示类。当特征没有标题并且由于列数较多而无法手动添加时，我如何将数据适合模型。有没有办法自动迭代行中的每一列？

当我有一个 4 列的小文件时，我使用了以下代码:

import pandas as pd
pd = pd.ExcelFile("bcs.xlsx")
col = [0, 1, 2, 3]
data = pd.parse(pd.sheet_names[0], parse_cols = col)

pdc = list(data["pdc"])
pds = list(data["pds"])
pdsh = list(data["pdsh"])
pd_class = list(data["class"])

features = []
for i in range(len(pdc)):
    features.append([pdc[i],pds[i],pdsh[i]])

labels = []
labels = pd_class

但是对于 3000 x 20000 的文件，我不知道如何识别特征和标签/目标

最佳答案

假设您有一个这样的 csv:

1,2,3,4,0
1,2,3,4,1
1,2,3,4,1
1,2,3,4,0

其中前 4 列是特征，最后一列是您想要的标签或类。您可以使用 pandas.read_csv 读取该文件并为您的特征创建一个数据框，并为您的标签创建一个数据框，您可以将其安装到您的模型中。

import pandas as pd

#CSV localPath
mypath ='C:\\...'

#The names of the columns you want to have in your dataframe
colNames = ['Feature1','Feature2','Feature3','Feature4','class']

#Read the data as dataframe
df = pd.read_csv(filepath_or_buffer = mypath, 
                 names = colNames , sep  = ',' , header = None)

#Get the first four columns as features
features = df.ix[:,:4]
#and last columns as label
labels = df['class']

关于python-3.x - 如何在Python中对没有标题的大型csv信号文件进行分类？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46247266/

上一篇：python - 一次从 GridSearch 设置多个参数

下一篇：python - 值错误: No variables to optimize

python - python-3中的 '%% time'是什么意思？

python - Pandas 数据框合并

python - 使用 Python Pandas 计算第二天为特定值的概率

python-3.x - 如何构建用于创建模型的分类器？

Python 反转元组的某些部分

python-3.x - 如何为python3安装omniORB？

python Pandas : Does 'loc' and 'iloc' stand for anything?

python - 使用 sci-kit 中的训练/测试数据而不是交叉验证来学习曲线

matlab - 如何确定matlab中随机森林中树木的数量？