在解析网络请求中的数据时,我遇到了以下字符串 -
dateRange = 'September\xa04,\xa01978 – September 1980'
提取的字符串的编码似乎是Latin-1(基于\xa0
)。我通过用空格替换代码来摆脱这个问题。
dateRange = dateRange.replace(u'\xa0', u' ')
抛开这一点,我无法在连字符 (-) 上拆分字符串。
当我按如下方式调用 split() 时:
print(dateRange.split('-'))
输出如下:
['September\xa04,\xa01978 – September 1980']
就好像字符串中没有连字符。 我感觉这与编码有关,但我似乎无法准确理解这个问题。
那么,如何解决这个问题呢?
编辑:
我已经尝试过以下方法,但没有成功:
dateRange.split('\-')
最佳答案
这不是 hyphen 。这是一个U+2013 ᴇɴ ᴅᴀsʜ .
只需将其复制并粘贴到您的拆分通话中即可:
dateRange.split('–')
或者,您可以将其替换为实际的连字符。确保将破折号复制并粘贴到替换调用中:)
关于python - 无法分割看似编码的字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16104374/