html - 如何实现类似 Arc90 的 Readability 或 Instapaper 的 html 页面洗涤器?

标签 html parsing

我很想知道如何清理 html 页面并很好地呈现它——去除所有的困惑并将主要文本重新格式化为一种非常可读的格式——比如 http://lab.arc90.com/experiments/readability或 Instapaper。

它是一个简单的页面解析和删除不在

内的元素吗?

这是否在其他地方讨论过?

最佳答案

Readability 不是一个简单的解析器,它使用复杂的算法来仅检索所需的组件,如果您不是编程高手,我建议您使用他们在下面突出显示的免费服务。

您可以从可读性 (http://www.readability.com/publishers/api) 请求开发者 api

如果您请求解析器,它将完全按照您的要求进行操作,即从网站中提取内容。请记住给他们一个足够好的理由让您使用他们的 API。

对其解析服务的查询如下所示

https://www.readability.com/api/content/v1/parser?url={url to be parsed here}&token={your api key here}

请求将返回如下响应:

HTTP/1.0 200 OK { "domain": "blog.readability.com", "author": "Richard Ziade", "url": "http://blog.readability.com/2011/02/step-up-be-heard-readability-ideas/",

"short_url": "http://rdd.me/kbgr5a1k",
"title": "Step Up & Be Heard: Readability Ideas", 
"total_pages": 1, 
"word_count": 175, 
"content": "<div>\n  \n<div class=\"entry\">\n\t<p>When we launched Readability [snip] ...</div>\n</div>", 
"date_published": "2011-02-22 00:00:00", 
"next_page_id": null, 
"rendered_pages": 1 }

对于那里的硬核人员,从这里检查可读性 nodeJS、ruby 和 python 端口 http://arrix.blogspot.com/2010/11/server-side-readability-with-nodejs.html

快乐编码

关于html - 如何实现类似 Arc90 的 Readability 或 Instapaper 的 html 页面洗涤器?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3724619/

相关文章:

parsing - FParsec:如何保存解析器成功的文本

javascript - 使用javascript解析嵌套的if语句

ios - 有什么有效的方法可以在大型远程 XML 文件中搜索信息吗?

javascript - 解析 xml 以获取要返回给 python 的方程

java - 关闭点击不起作用

html - CSS:如何将两个 div 框放在一起?

javascript - 打印时底部的页脚

html - 不插入 HTML 全局结构(如 &lt;!DOCTYPE>、<body>)的 HTML 命令行整洁

javascript - 我的代码在 codepen 中有效,但在网站中无效

css - 多个 div 并排显示百分比和固定宽度内联