用于匹配单词的 Ruby 正则表达式，包括重音符号和其他 UTF8 字符

我们正试图找到一个正则表达式，使我们能够将句子拆分成单词。当然，直接的答案是使用 \w，只是它不会在我们需要的 _ 上拆分。然后，我们尝试了 [a-zA-Z0-9](我们希望允许单词中包含数字)，问题是它会根据重音拆分，这在许多语言中都很常见。 ..

因此，理想情况下，我应该使用什么正则表达式将以下句子拆分为以下单词:

"Je ne déguste pas d'asperges, car je n'aime pas ça"

信息

["Je","ne","déguste","pas","d", "asperges", "car","je", "n","aime","pas", "ça"]

最佳答案

STR = "Je ne déguste pas d'asperges, car je n'aime pas ça"
words = STR.split /[\s,']+/
for w in words
    print w, "\n"
end

输出是:

Je
ne
déguste
pas
d
asperges
car
je
n
aime
pas
ça

关于用于匹配单词的 Ruby 正则表达式，包括重音符号和其他 UTF8 字符，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4404789/

相关文章：

c# - 使用正则表达式在 Controller 中进行验证