简化我的任务,假设我想在某个网页中查找用希伯来语编写的任何单词。
所以我知道希伯来语字符代码是 U+05D0
到 U+05EA
。
我想写这样的东西:
expr = "[\u05D0-\u05EA]+"
url = "https://en.wikipedia.org/wiki/Category:Countries"
web_handle = urllib2.urlopen(url)
website_text = website_handle.read()
matches = sre.findall(exp, website_text)
for item in matches:
print item
我期望的输出是:
עברית
但是输出的是很多中文/日文字符。
最佳答案
您可以在字符类中使用 python 中 unicode 的标准表示形式:
re.findall([\u05D0-\u05EA], website_text,re.U)
关于python - 在正则表达式中使用 unicode char 代码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32591304/