我正在使用 scrapy 编写小型爬虫。 XPath 之一包含价格后跟“zł”(波兰货币标记)问题是它被换行符、空格和不间断空格混淆了。 所以当我这样做时:
sel.xpath("div/div/span/span/text()[normalize-space(.)]").extract()
我得到:
[u'\n 1\xa0740,00 z\u0142\n \n \n ']
我想改成
[u'1740,00']
或者简单地转换为 float 变量。 执行此操作的/最好/最简单/最快的方法是什么?
最佳答案
您可以使用re.findall
从字符串中提取字符:
>>> import re
>>> s = u'\n 1\xa0740,00 z\u0142\n \n \n '
>>> L = re.findall(r'[\d,]', s)
>>> "".join(L)
'1740,00'
关于python - 如何从 python 中的 unicode 字符串中删除除数字和 ","之外的所有字符?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34384480/