在 Ubuntu 平台上,我安装了漂亮的小 Perl 脚本
libtext-mediawikiformat-perl - Convert Mediawiki markup into other text formats
可用on cpan 。我不熟悉 perl,也不知道如何使用这个库来编写将 mediawiki 文件转换为 html 文件的 perl 脚本。例如我想要一个可以运行的脚本,例如
./my_convert_script input.wiki > output.html
(也许还指定基本网址等),但不知道从哪里开始。有什么建议吗?
最佳答案
我相信 @amon 是正确的,我在问题中引用的 perl 库不是完成我提议的任务的正确工具。
我最终使用了 mediawiki API使用 action="parse"使用 mediawiki 引擎转换为 HTML,结果比我尝试过的任何替代解析器都要可靠得多 proposed on the list 。 (然后我使用 pandoc 将 html 转换为 markdown。)mediawiki API 也处理类别和其他元数据的提取,我只需将基本 url 附加到内部图像和页面链接。
给定页面标题和基本 url,我最终将其编写为 R 函数。
wiki_parse <- function(page, baseurl, format="json", ...){
require(httr)
action = "parse"
addr <- paste(baseurl, "/api.php?format=", format, "&action=", action, "&page=", page, sep="")
config <- c(add_headers("User-Agent" = "rwiki"), ...)
out <- GET(addr, config=config)
parsed_content(out)
}
关于html - 如何使用 Perl Text-MediawikiFormat 将 mediawiki 转换为 xhtml?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12630206/