我在另一个堆栈问题上找到了这个分词器,但是,我需要修改它并且正在努力。它目前将带连字符的单词拆分为单独的标记,但我希望它们是单个标记。
分词器:
[(m.start(0), m.end(0),m.group()) for m in re.finditer("\w+|\$[\d\.]+|\S+",target_sentence)]
给定以下句子:“half-life is a single token”它应该给出以下标记(加上字符偏移信息):
['half-life', 'is', 'a', 'single', 'token']
相反,它给出:
[(0, 4, 'half'),
(4, 9, '-life'),
(10, 12, 'is'),
(13, 14, 'a'),
(15, 21, 'single'),
(22, 27, 'token')]
编辑:我想要字符信息而不仅仅是单词标记,所以 string.split 不会削减它
最佳答案
您的正则表达式使用 \w+
匹配 half
并使用最后一个备用 \S+
匹配剩余的 -life
。
您可以使用此正则表达式来捕获可选的带连字符的单词:
\w+(?:-\w+)*|\$[\d.]+|\S+
\w(?:-\w+)*
将匹配 1 个或多个由连字符分隔的单词。
关于python - 修改正则表达式以包含带连字符的单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49679128/