借助 joksnet 的程序 here我已经设法获得了我正在寻找的纯文本维基百科文章。
返回的文本包括标题的 Wiki 标记,例如 Albert Einstein article 的部分像这样返回:
==Biography==
===Early life and education===
blah blah blah
我真正想做的是将检索到的文本提供给一个函数,并将所有顶级部分用粗体 html 标记包装起来,将第二级部分用斜体包装起来,如下所示:
<b>Biography</b>
<i>Early life and education</i>
blah blah blah
但恐怕我什至不知道如何开始,至少在不使该功能过于幼稚的情况下是这样。我需要使用正则表达式吗? 非常感谢任何建议。
PS 对不起,如果“解析”这个词对于我在这里尝试做的事情来说太强了。
最佳答案
我认为这里最好的方法是让 MediaWiki 负责解析。我不知道你用的是什么库,但基本上这就是区别
返回原始维基文本和
返回解析后的 HTML。
关于python - 用 python 制作一个(希望简单的)wiki 解析器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16784154/