python - 在将字符串转换为列表后，如何从我的 nltk token 中删除 '\n'，或阻止它首先出现？

我已将一列从 CSV 格式转换为列表，然后是用于标记化的字符串。在它被转换成一个字符串后，我得到了 '\n' 。我正在寻求完全防止这种情况发生，或者在它发生后将其删除。

到目前为止，我已经尝试过 replace、strip 和 rstrip，但均无济于事。

这是我在将列表转换为字符串后尝试 .replace() 的版本。

df = pd.read_csv('raw_da_qs.csv')
question = df['question_only']
question = question.str.replace(r'\d+','')
question = str(question.tolist())
question = question.replace('\n','')
tokenizer = nltk.tokenize.RegexpTokenizer('\w+')
tokens = tokenizer.tokenize(question)

最后我得到了这样的标记，比如“nthere”和“nsuicide”

最佳答案

我有同样的问题，我唯一的 solution我发现是使用 sed . 我希望有人会分享一个 pythonic 的方式来处理它。

关于python - 在将字符串转换为列表后，如何从我的 nltk token 中删除 '\n'，或阻止它首先出现？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56708768/

上一篇：php - tempus dominus pre select multidate from value 属性

下一篇：stackdriver - 谷歌 stackdriver 缓慢

python - Pyspark 基于具有列表或集合的多个条件的其他列创建新列

Pandas - 使用另一列的降序 N 行获取一列的平均值

machine-learning - 有哪些好的资源可以帮助您了解基于学习的自动文档摘要？

azure - 如何在Cosmos DB中基于三元组列表构建图？

python - 使用 Python 计算 N 克

python - Pandas DataFrame 的多列可以被不同的值切片吗

python - 如何在已放置的 QLabel 或 QPixmap 之上使用 QPainter 进行绘制？

python - 使用 matplotlib 绘制时间序列 pandas 数据框时标签错误

python - 替换问题 - Pandas 数据框