python - 拆分包含 unicode 字符的单词

标签 python regex python-3.x unicode

我正在从事一个涉及推文中的表情符号的 NLP 项目。

此处给出了推文的示例:
“有时候我希望自己是一只 Octopus ,这样我就可以一次扇 8 个人耳光🐙”

我的问题是 once🐙 被认为是一个词,所以我想把这个独特的词分成两个,这样我的推文就变成了这样:
“有时候我希望自己是一只 Octopus ,这样我就可以一次扇 8 个人耳光🐙”

请注意,我已经有了包含每个表情符号的已编译正则表达式!

我正在寻找一种有效的方法来做到这一点,因为我有数十万条推文,但我不知道从哪里开始。

谢谢

最佳答案

你不能做这样的事情吗:

>>> import re
>>> s = "sometimes i wish i wa an octopus so i could slap 8 people at once🐙"
>>> re.findall("(\w+|[^\w ]+)",s)
['sometimes', 'i', 'wish', 'i', 'wa', 'an', 'octopus', 'so', 'i', 'could', 'slap', '8', 'people', 'at', 'once', '🐙']

如果您再次需要它们作为单个空格分隔的字符串,只需加入它们:

>>> " ".join(re.findall("(\w+|[^\w ]+)",s))
'sometimes i wish i wa an octopus so i could slap 8 people at once 🐙'

编辑:修复。

关于python - 拆分包含 unicode 字符的单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35691265/

相关文章:

javascript - 在 django 中向 TinyMCE 添加外部插件

python - 如何对数组中的numpy数组进行排序?

python - django-celery 或 python 的奇怪错误

ruby - 从亚马逊 URL 获取 ASIN 编号

python - 使用Python的 `re`模块将所有字符设置为小写

python - 如何在 Pandas 中组合宽数据框和长数据框?

python-3.x - 找到python字典中所有最大值的键?

python - 每 n 个字符拆分字符串但不拆分单词

python - 如何从 Raspbian 上的 systemd 服务正确重定向 stdout/stderr?

javascript - 正则表达式定义边界但不捕获它来替换 - javascript