我正在从事一个涉及推文中的表情符号的 NLP 项目。
此处给出了推文的示例:
“有时候我希望自己是一只 Octopus ,这样我就可以一次扇 8 个人耳光🐙”
我的问题是 once🐙
被认为是一个词,所以我想把这个独特的词分成两个,这样我的推文就变成了这样:
“有时候我希望自己是一只 Octopus ,这样我就可以一次扇 8 个人耳光🐙”
请注意,我已经有了包含每个表情符号的已编译正则表达式!
我正在寻找一种有效的方法来做到这一点,因为我有数十万条推文,但我不知道从哪里开始。
谢谢
最佳答案
你不能做这样的事情吗:
>>> import re
>>> s = "sometimes i wish i wa an octopus so i could slap 8 people at once🐙"
>>> re.findall("(\w+|[^\w ]+)",s)
['sometimes', 'i', 'wish', 'i', 'wa', 'an', 'octopus', 'so', 'i', 'could', 'slap', '8', 'people', 'at', 'once', '🐙']
如果您再次需要它们作为单个空格分隔的字符串,只需加入它们:
>>> " ".join(re.findall("(\w+|[^\w ]+)",s))
'sometimes i wish i wa an octopus so i could slap 8 people at once 🐙'
编辑:修复。
关于python - 拆分包含 unicode 字符的单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35691265/