python-3.x - 在 Python 3.2 中使用 HTMLParser

我一直在使用 HTML Parser 从网站上抓取数据并在这样做的同时剥离 html 编码。我知道各种模块，例如 Beautiful Soup，但决定走不依赖“外部”模块的道路。 Eloff 提供了一个代码:Strip HTML from strings in Python

from HTMLParser import HTMLParser

class MLStripper(HTMLParser):
    def __init__(self):
        self.reset()
        self.fed = []
    def handle_data(self, d):
        self.fed.append(d)
    def get_data(self):
        return ''.join(self.fed)

def strip_tags(html):
    s = MLStripper()
    s.feed(html)
    return s.get_data()

它适用于 Python 3.1。但是，我最近升级到 Python 3.2.x，发现上面写的关于 HTML Parser 代码的错误。

我的第一个错误指向该行:

s.feed(html)

...并且错误说...

AttributeError: 'MLStripper' object has no attribute 'strict'

因此，经过一番研究，我将“strict=True”添加到顶行，使其...

class MLStripper(HTMLParser, strict=True)

但是，我收到以下新错误:

TypeError: type() takes 1 or 3 arguments

为了看看会发生什么，我删除了“self”参数并留在了“strict=True”......这放弃了错误:

NameError: global name 'self' is not defined

...我得到了“我在猜测”的感觉。

我不知道 class MLStripper(HTMLParser) 中的第三个参数是什么行将是，在 self 之后和 strict=True ;研究并没有带来任何启示。

最佳答案

您正在继承 HTMLParser ，但你没有调用它的__init__方法。您需要在 __init__ 中添加一行方法:

def __init__(self):
    super().__init__()
    self.reset()
    self.fed = []

此外，对于 Python 3，导入行是:

from html.parser import HTMLParser

通过这些更改，一个简单的示例就可以工作了。不要更改 class线，没关系。

关于python-3.x - 在 Python 3.2 中使用 HTMLParser，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11061058/

python-3.x - 在 Python 3.2 中使用 HTMLParser

上一篇：asp.net - 上传较大的文件时，出现此错误 :Error 404 - File or directory not found

下一篇：r - 读取和使用自定义配置文件