python - Pandas 列表中的词频

标签 python python-3.x pandas nlp spacy

我在 pandas df 中有一列标记化、词形还原的文本。我正在尝试创建一个词频矩阵,以便我可以继续降维。

我一直遇到一个错误,Python 需要一个字符串,但得到一个列表。 类型错误:序列项 0:预期的 str 实例,找到列表

我尝试了多种方法,但每次都会遇到错误。我不知道如何解释列表。

以下是我尝试过的一些方法:

选项 1:

from collections import Counter
df['new_col'] = Counter()
for token in df['col']:
    counts[token.orth_] += 1

此生成的ValueError:值的长度与索引的长度不匹配

选项 2:

Counter(' '.join(df['col']).split()).most_common()

生成的:TypeError:序列项 0:预期的 str 实例,找到列表

选项 3:

pd.Series(values = ','.join([(i) for i in df['col']]).lower().split()).value_counts()[:]

再次生成:TypeError:序列项 0:预期的 str 实例,找到列表

编辑:示例数据:

col
[indicate, after, each, action, step, .]
[during, september, and, october, please, refrain]
[the, work, will, be, ongoing, throughout, the]
[professional, development, session, will, be]

最佳答案

简单回答

根据您告诉我们的内容,9dogs 提到的最佳解决方案是使用 scikit-learn 的 CountVectorizer 。我在这里对您想要的数据格式做出一些假设,但这将为您提供 doc x token数据帧,其中值是文档中标记的计数。它假设df['col']是一个 pandas 系列,其中值是列表。

>>> from sklearn.feature_extraction.text import CountVectorizer
>>> cv = CountVectorizer(analyzer=lambda x: x)
>>> counted_values = cv.fit_transform(df['col']).toarray()
>>> df = pd.DataFrame(counted_values, columns=cv.get_feature_names())
>>> df.iloc[0:5, 0:5]
   .  action  after  and  be
0  1       1      1    0   0
1  0       0      0    1   0
2  0       0      0    0   1
3  0       0      0    0   1

CountVectorizer可以为您标记,并且默认情况下会标记,因此我们将身份 lambda 函数传递给 analyzer告诉它我们的文档已预先标记化的参数。

次优答案

我不推荐这样做,但我认为如果您想了解计数器的工作原理,这会很有帮助。由于您的值是一个列表,因此您可以使用 .apply在系列的每一行上。

>>> counted_values = df['col'].apply(lambda x: Counter(x))
>>> counted_values
0    {'.': 1, 'after': 1, 'indicate': 1, 'action': ...
1    {'during': 1, 'and': 1, 'october': 1, 'please'...
2    {'will': 1, 'ongoing': 1, 'work': 1, 'the': 2,...
3    {'development': 1, 'professional': 1, 'session...
dtype: object

现在你有一系列的命令,这并不是很有帮助。您可以将其转换为类似于我们上面的数据框,如下所示:

>>> suboptimal_df = pd.DataFrame(counted_values.tolist())
>>> suboptimal_df.iloc[0:5, 0:5]
     .  action  after  and   be
0  1.0     1.0    1.0  NaN  NaN
1  NaN     NaN    NaN  1.0  NaN
2  NaN     NaN    NaN  NaN  1.0
3  NaN     NaN    NaN  NaN  1.0

我不会推荐这个,因为 apply速度很慢,而且我们将列表存储为系列值已经有点愚蠢了,字典也同样愚蠢。 DataFrame 最适合作为数字或字符串值的结构化容器(例如电子表格),而不是不同的容器类型。

关于python - Pandas 列表中的词频,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47019775/

相关文章:

python - TensorFlow 中的矩阵范数

python - "return"和 "return None"生成器中的行为差异

python - 当文件名有重音符号时用 pandas.read_csv 编码

python - Pandas 的 CSV 加载错误

python - satchmo nginx 重定向到 https,然后重定向到 http,然后返回

python - 隐藏层的训练不起作用

python - TensorFlow - 显示来自 MNIST 数据集的图像

python - 使用 PyGame 显示 PyMunk - Python

python - 拆分列中的名称

python - 获取系列内的数组切片