用于匹配单词的 Ruby 正则表达式,包括重音符号和其他 UTF8 字符

标签 ruby regex

我们正试图找到一个正则表达式,使我们能够将句子拆分成单词。 当然,直接的答案是使用 \w,只是它不会在我们需要的 _ 上拆分。 然后,我们尝试了 [a-zA-Z0-9](我们希望允许单词中包含数字),问题是它会根据重音拆分,这在许多语言中都很常见。 ..

因此,理想情况下,我应该使用什么正则表达式将以下句子拆分为以下单词:

"Je ne déguste pas d'asperges, car je n'aime pas ça"

信息

["Je","ne","déguste","pas","d", "asperges", "car","je", "n","aime","pas", "ça"]

最佳答案

STR = "Je ne déguste pas d'asperges, car je n'aime pas ça"
words = STR.split /[\s,']+/
for w in words
    print w, "\n"
end

输出是:

Je
ne
déguste
pas
d
asperges
car
je
n
aime
pas
ça

关于用于匹配单词的 Ruby 正则表达式,包括重音符号和其他 UTF8 字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4404789/

相关文章:

c# - 使用正则表达式在 Controller 中进行验证

ruby - 如何在另一个正则表达式中使用 Regexp.union?

ruby-on-rails - 布伦特里支付网关 : Dealing with "payment_method_token"?

javascript - 使用模式的html5时间验证问题

java - 将 SQL 查询文本中的参数替换为 XXXXX

javascript - JS 正则表达式 : how to match "for (...)" but not "for...of" or "for...in"

Ruby 模块声明

ruby-on-rails - 我如何清理这个 FactoryGirl 构建策略?

ruby - 暂时将 MongoMapper 切换为从从属副本读取

java - 正则表达式插入符号和符号有效,但不知道为什么