我们正试图找到一个正则表达式,使我们能够将句子拆分成单词。
当然,直接的答案是使用 \w
,只是它不会在我们需要的 _
上拆分。
然后,我们尝试了 [a-zA-Z0-9]
(我们希望允许单词中包含数字),问题是它会根据重音拆分,这在许多语言中都很常见。 ..
因此,理想情况下,我应该使用什么正则表达式将以下句子拆分为以下单词:
"Je ne déguste pas d'asperges, car je n'aime pas ça"
信息
["Je","ne","déguste","pas","d", "asperges", "car","je", "n","aime","pas", "ça"]
最佳答案
STR = "Je ne déguste pas d'asperges, car je n'aime pas ça"
words = STR.split /[\s,']+/
for w in words
print w, "\n"
end
输出是:
Je
ne
déguste
pas
d
asperges
car
je
n
aime
pas
ça
关于用于匹配单词的 Ruby 正则表达式,包括重音符号和其他 UTF8 字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4404789/