python - 通过组合文本 pandas 制作新的数据框

我有一个 pandas 数据框架，其结构如下:

ID TEXT
1  Start of document
1  middle
1  end of document
2  start of document 2
2  middle
2  end of document 2

我获得的原始数据具有重复的 ID，如果您连接每个唯一 ID 的文本，您将得到一个结果文档。其中一些 ID 重复数百次，从而产生大量文本，我想将其归结为一项观察结果。

我不知道如何循环并创建一个新文档。也不确定 Pandas 是否是存储大量文本的正确数据结构(这些是转录的通话记录——其中一些长达 30 分钟以上的对话)。将不胜感激任何指点。

最佳答案

IIUC:

df.groupby('ID').TEXT.apply(' '.join)

ID
1        Start of document middle end of document
2    start of document 2 middle end of document 2
Name: TEXT, dtype: object

关于python - 通过组合文本 pandas 制作新的数据框，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52449689/

上一篇：date - Hive 日期/时间戳列

下一篇：java - Integer 和 IntWritable 类型的存在

python - 日期时间分组/对不同年份的月份和日期进行重新采样(删除年份)

c++ - Wordcount C++ Hadoop 管道不起作用

python - 将数量 X 随机分配给 n 个项目

Python TCP Payload Duplication - 同时将数据传递到多个端点

python - Flask EqualTo 验证器，在哪里定义password2

python - Pandas 根据条件选择行

python - 有效地写入 Pandas 中的多个相邻列

hadoop - 从 Pig 中的另一行中减去一行的值

hadoop - 错误安全.UserGroupInformation : PriviledgedActionException in Hadoop 2. 2