我有一个由主题名称、描述组成的 Pandas 数据框
我正在尝试将其转换为主题名称、单词(出现在描述列中)及其频率
我已经试过了,但它只给了我描述的单词和频率,而不是主题名称级别。
import nltk
top_N = 4
a = df['ParsedText'].str.cat(sep=' ')
nltk.download('punkt')
words = nltk.tokenize.word_tokenize(a)
word_dist = nltk.FreqDist(words)
rslt = pd.DataFrame(word_dist.most_common(top_N),
columns=['Word', 'Frequency'])
print(rslt)
- 解析的文本是描述列
最佳答案
你可以试试:
(df.assign(Description=df.Description.str.split()).explode()
.groupby('TopicName')['Description'].value_counts()
.reset_index(name='Frequency')
)
关于python - 将 pandas 中的 Topic-name 和 Description 转换为 Topic-Name、Words 和 Frequency,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66496509/