python-3.x - 如何在Python中对没有标题的大型csv信号文件进行分类?

标签 python-3.x pandas machine-learning classification

我有一个大的 csv 文件 (3000*20000),其中包含没有标题的数据,我添加了一列来表示类。当特征没有标题并且由于列数较多而无法手动添加时,我如何将数据适合模型。 有没有办法自动迭代行中的每一列?

当我有一个 4 列的小文件时,我使用了以下代码:

import pandas as pd
pd = pd.ExcelFile("bcs.xlsx")
col = [0, 1, 2, 3]
data = pd.parse(pd.sheet_names[0], parse_cols = col)

pdc = list(data["pdc"])
pds = list(data["pds"])
pdsh = list(data["pdsh"])
pd_class = list(data["class"])

features = []
for i in range(len(pdc)):
    features.append([pdc[i],pds[i],pdsh[i]])

labels = []
labels = pd_class

但是对于 3000 x 20000 的文件,我不知道如何识别特征和标签/目标

最佳答案

假设您有一个这样的 csv:

1,2,3,4,0
1,2,3,4,1
1,2,3,4,1
1,2,3,4,0

其中前 4 列是特征,最后一列是您想要的标签或类。您可以使用 pandas.read_csv 读取该文件并为您的特征创建一个数据框,并为您的标签创建一个数据框,您可以将其安装到您的模型中。

import pandas as pd

#CSV localPath
mypath ='C:\\...'

#The names of the columns you want to have in your dataframe
colNames = ['Feature1','Feature2','Feature3','Feature4','class']

#Read the data as dataframe
df = pd.read_csv(filepath_or_buffer = mypath, 
                 names = colNames , sep  = ',' , header = None)

#Get the first four columns as features
features = df.ix[:,:4]
#and last columns as label
labels = df['class']

关于python-3.x - 如何在Python中对没有标题的大型csv信号文件进行分类?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46247266/

相关文章:

python-3.x - RuntimeError : Given groups=3, 大小为 12 64 3 768 的权重,预期输入 [32, 12, 30, 768] 有 192 个 channel ,但得到了 12 个 channel

python - python-3中的 '%% time'是什么意思?

python - Pandas 数据框合并

python - 使用 Python Pandas 计算第二天为特定值的概率

python-3.x - 如何构建用于创建模型的分类器?

Python 反转元组的某些部分

python-3.x - 如何为python3安装omniORB?

python Pandas : Does 'loc' and 'iloc' stand for anything?

python - 使用 sci-kit 中的训练/测试数据而不是交叉验证来学习曲线

matlab - 如何确定matlab中随机森林中树木的数量?