我有一个 pandas 数据框架,其结构如下:
ID TEXT
1 Start of document
1 middle
1 end of document
2 start of document 2
2 middle
2 end of document 2
我获得的原始数据具有重复的 ID,如果您连接每个唯一 ID 的文本,您将得到一个结果文档。其中一些 ID 重复数百次,从而产生大量文本,我想将其归结为一项观察结果。
我不知道如何循环并创建一个新文档。也不确定 Pandas 是否是存储大量文本的正确数据结构(这些是转录的通话记录——其中一些长达 30 分钟以上的对话)。将不胜感激任何指点。
最佳答案
IIUC:
df.groupby('ID').TEXT.apply(' '.join)
ID
1 Start of document middle end of document
2 start of document 2 middle end of document 2
Name: TEXT, dtype: object
关于python - 通过组合文本 pandas 制作新的数据框,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52449689/