python - 在正则表达式中使用 unicode char 代码

标签 python regex unicode

简化我的任务,假设我想在某个网页中查找用希伯来语编写的任何单词。 所以我知道希伯来语字符代码是 U+05D0U+05EA。 我想写这样的东西:

expr = "[\u05D0-\u05EA]+"
url = "https://en.wikipedia.org/wiki/Category:Countries"    

web_handle = urllib2.urlopen(url)
website_text = website_handle.read()    
matches = sre.findall(exp, website_text)
for item in matches:
    print item

我期望的输出是:

עברית

但是输出的是很多中文/日文字符。

最佳答案

您可以在字符类中使用 python 中 unicode 的标准表示形式:

re.findall([\u05D0-\u05EA], website_text,re.U)

关于python - 在正则表达式中使用 unicode char 代码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32591304/

相关文章:

python - Python 中的 for 循环 - 如何在循环内修改 i

python - Python 中的调用图分析器

java - 如何使replaceAll在java中工作?

java - 如何在 Java/Eclipse 中使用特殊字符

python - 如何在类属性中缓存 API 数据?

python - Python程序输出错误

c# - 密码验证的正则表达式 C#

python - 删除 Pandas 数据框列中的多个子字符串

string - 当需要快速 (O(1)) 索引时,哪种 Haskell 字符串类型用于 Unicode 数据?

unicode - 是否有一个看起来像 "key"图标的 Unicode 字形?