python - 通过组合文本 pandas 制作新的数据框

标签 python pandas hadoop dataframe text

我有一个 pandas 数据框架,其结构如下:

ID TEXT
1  Start of document
1  middle
1  end of document
2  start of document 2
2  middle
2  end of document 2

我获得的原始数据具有重复的 ID,如果您连接每个唯一 ID 的文本,您将得到一个结果文档。其中一些 ID 重复数百次,从而产生大量文本,我想将其归结为一项观察结果。

我不知道如何循环并创建一个新文档。也不确定 Pandas 是否是存储大量文本的正确数据结构(这些是转录的通话记录——其中一些长达 30 分钟以上的对话)。将不胜感激任何指点。

最佳答案

IIUC:

df.groupby('ID').TEXT.apply(' '.join)

ID
1        Start of document middle end of document
2    start of document 2 middle end of document 2
Name: TEXT, dtype: object

关于python - 通过组合文本 pandas 制作新的数据框,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52449689/

相关文章:

python - 当 numpy 数组的大小超过系统内存时,如何在笔记本电脑上创建它?

python - 日期时间分组/对不同年份的月份和日期进行重新采样(删除年份)

c++ - Wordcount C++ Hadoop 管道不起作用

python - 将数量 X 随机分配给 n 个项目

Python TCP Payload Duplication - 同时将数据传递到多个端点

python - Flask EqualTo 验证器,在哪里定义password2

python - Pandas 根据条件选择行

python - 有效地写入 Pandas 中的多个相邻列

hadoop - 从 Pig 中的另一行中减去一行的值

hadoop - 错误安全.UserGroupInformation : PriviledgedActionException in Hadoop 2. 2