html - 使用 pandoc 将 html 转换为 json

标签 html json pandoc format-conversion

我正在尝试获取 html 并生成一些保持相同结构的 json。

我正在尝试使用 pandoc,因为我之前使用 pandoc 将格式 A 转换为格式 B 取得了一些成功。

我正在尝试转换此文件:

example.html

<p>Hello guys! What's up?</p>

使用命令:

pandoc -f html -t json example.html

我期望的是这样的:

[{ "p": "Hello guys! What's up?"}]

我得到的是:

[
  { "Para":
    [
      {"t": "Str", "c": "Hello"},
      {"t": "Space"},
      {"t": "Str", "c": "guys!"},
      {"t": "Space"},
      {"t": "Str", "c": "What's"},
      {"t": "Space"},
      {"t": "Str", "c": "up?"}
    ]
  }
]

问题似乎是当 pandoc 读取文本内容时,它根据空格字符分隔每个单词并从中生成一个数组,而我希望 pandoc 理解整个字符串是一个元素。

我是 pandoc 的初学者,我一直无法找到调整该行为的方法。

您知道如何获得所需的输出吗?你知道另一个可以做到这一点的工具吗?工具或其编写语言并不重要。

谢谢。

编辑:您可以在 pandoc online tool 上在线测试该行为.

编辑 2:解决方法。我找不到如何使用 pandoc 进行 HTML->JSON 转换。作为解决方法,我使用了评论中提出的建议,并使用 Himalaya 实现了一个解决方案。 ,这是一个节点包。结果正是我所希望的,即使它没有使用 pandoc。

最佳答案

目前,pandoc JSON 表示不太适合人类阅读,而是从 Haskell pandoc 数据类型(又名文档 AST)自动生成的。有一些 discussion to change that eventually .

我猜你正在寻找类似 https://codebeautify.org/xmltojson 的东西?似乎还有plenty of commandline-tools that do that .

关于html - 使用 pandoc 将 html 转换为 json,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52439714/

相关文章:

python - 是否可以在 Google Chrome 上运行 Python GUI?如果是,请告诉我如何?

javascript - 如何修复此 Off-Canvas 导航

javascript - 解析 JSON 流

c# - web api 2中Data Member和JsonProperty的区别

cmd 中的 rmarkdown::render() 返回 pandoc 错误

latex - 如何控制 pandoc 生成的 latex 中的表?

html - 如何使用文本字体百分比而不是文本图像进行响应式设计?附上我的代码

javascript - 如何在 javascript for 循环中呈现大块 html

r - 错误 : pandoc document conversion failed with error 2 with pkgdown/rmarkdown

json - 是否有特殊值可以从 jq 输出中省略字段?