python - 使用 Python 将 HTML 表示形式替换为 ascii

标签 python encoding

<分区>

Possible Duplicate:
Decode HTML entities in Python string?

我已经解析了一些 HTML 文本。但是一些标点符号如撇号被替换为。如何将它们还原为 `

P.S: 我正在使用 Python/Feedparser

谢谢

最佳答案

PSF Wiki 有一些方法可以做到这一点。这是一种方法:

import htmllib

def unescape(s):
    p = htmllib.HTMLParser(None)
    p.save_bgn()
    p.feed(s)
    return p.save_end()

参见 http://wiki.python.org/moin/EscapingHtml

关于python - 使用 Python 将 HTML 表示形式替换为 ascii,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8057486/

相关文章:

python - 如果行数大于 1,则在 Group By 上应用自定义函数

ruby - 在 Ruby 中定义 String#prev 方法

安卓。 WebView 和 loadData

java - 扫描阿拉伯字符 netbeans 8

python - 如何从 Pandas 列中的每个值中减去 1

即使包存在,也找不到 Python 包

python - 词汇处理器功能

delphi - utf-8字符串的base64编码

python - 使用 Python 搜索 Unicode 文件

python - 我如何在 Python/Flask 中干净地做 slugs?