<分区>
Possible Duplicate:
Decode HTML entities in Python string?
我有一个充满 HTML 转义字符的字符串,例如 "
、”
和 —
。
是否有任何 Python 库为我提供了将所有这些转义字符替换为它们各自的实际字符的可靠方法?
例如,我希望所有 "
都替换为 "s。
标签 python
<分区>
Possible Duplicate:
Decode HTML entities in Python string?
我有一个充满 HTML 转义字符的字符串,例如 "
、”
和 —
。
是否有任何 Python 库为我提供了将所有这些转义字符替换为它们各自的实际字符的可靠方法?
例如,我希望所有 "
都替换为 "s。
最佳答案
你想用这个:
try:
from html.parser import HTMLParser # Python 3
except ModuleNotFoundError:
from HTMLParser import HTMLParser # Python 2
parser = HTMLParser()
html_decoded_string = parser.unescape(html_encoded_string)
我也看到了很多人对 BeautifulSoup 的喜爱
from BeautifulSoup import BeautifulSoup
html_decoded_string = BeautifulSoup(html_encoded_string, convertEntities=BeautifulSoup.HTML_ENTITIES)
还有这些现有问题的重复:
Decode HTML entities in Python string?
关于python - 如何使用 Python 替换 HTML 转义字符?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11405996/