python - 正则表达式和unicode在python中提取价格

标签 python regex unicode euro

我试图从宜家网站上提取一些价格,但价格格式非常困惑(空格、回车符、中间的逗号)。这是我提取的:

        39,90 €
                            ,

我使用Scrapy来做到这一点,到目前为止没有问题,除了我想摆脱所有不是价格的东西(和欧元符号)!

我尝试使用这个正则表达式(在 python 2.7 中):

re(\S[0-9]+([ ,]?[ ])([0-9]{2}?)u"\u20AC")

我是编程新手,今天下午我学习了什么是正则表达式,但我尝试了很多可能性,但没有得到比以下更好的结果:

SyntaxError: unexpected character after line continuation character

如果有人能花几分钟看看我做了什么并告诉我哪里错了,那就太好了!

大家一起加油

最佳答案

您尝试匹配 unicode 或 byte 的字符串类型是什么?

假设您正在使用 unicode 字符串,那么您的匹配可能如下所示:

#!/usr/bin/python
import re

s = u"""        39,90 \u20AC
                  """
groups = re.match(ur'\D*(\d+)\D*(\d{0,2})\D*(\u20AC)', s, re.UNICODE)
print groups.groups()

输出:

(u'39', u'90', u'\u20ac')
字符串前面的

u表示这是unicode字符串。

正则表达式解释:

  1. \D* - 任何非数字零次或多次的内容
  2. (\d+) - 一位或多位数字
  3. \D* - ...
  4. (\d{0,2}) - 零或两位数字
  5. \D* - ...
  6. (\u20AC) - unicode 货币符号

我们使用\D、\d 以及 re.UNICODE标记,以便将 unicode 中被解释为数字或非数字的所有内容进行匹配。

如果使用字节字符串。我假设您正在使用 utf-8 字节字符串。然后:

import re

s = b"""        39,90 \xE2\x82\xAC
                  """

groups = re.match(r'\D*(\d+)\D*(\d{0,2})\D*(\xE2\x82\xAC)', s)
print groups.groups()

输出:

('39', '90', '\xe2\x82\xac')

“\xe2\x82\xac”是“e282ac”字节序列,在utf-8编码中表示欧元符号。

称为“Unicode 三明治”的良好做法:

  1. 将输入的字节解码为 un​​icode
  2. 仅使用 unicode
  3. 在输出时将 unicode 编码为字节

关于python - 正则表达式和unicode在python中提取价格,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34109511/

相关文章:

python - 用 Transcrypt 龟并画一棵树

java - Java中的类似Python的装饰器?

python - PyQt4 名称在 eclipse 中显示为未定义,但运行良好

javascript - 正则表达式 - 针对两种不同模式的测试

java - 解析器的缓冲区如何工作?匹配正则表达式

python - 在 Keras 中训练多类图像分类器

javascript - 如何让javascript替换函数匹配每个出现的地方而不仅仅是外部出现的地方

unicode - 标准化 unicode

ios - 无法在 iOS 中将\\u00e2\\u0080\\u0099 解码为 ’

PHP:将单引号字符串转换为双引号