我很想知道如何清理 html 页面并很好地呈现它——去除所有的困惑并将主要文本重新格式化为一种非常可读的格式——比如 http://lab.arc90.com/experiments/readability或 Instapaper。
它是一个简单的页面解析和删除不在
内的元素吗?
这是否在其他地方讨论过?
最佳答案
Readability 不是一个简单的解析器,它使用复杂的算法来仅检索所需的组件,如果您不是编程高手,我建议您使用他们在下面突出显示的免费服务。
您可以从可读性 (http://www.readability.com/publishers/api) 请求开发者 api
如果您请求解析器,它将完全按照您的要求进行操作,即从网站中提取内容。请记住给他们一个足够好的理由让您使用他们的 API。
对其解析服务的查询如下所示
https://www.readability.com/api/content/v1/parser?url={url to be parsed here}&token={your api key here}
请求将返回如下响应:
HTTP/1.0 200 OK { "domain": "blog.readability.com", "author": "Richard Ziade", "url": "http://blog.readability.com/2011/02/step-up-be-heard-readability-ideas/",
"short_url": "http://rdd.me/kbgr5a1k", "title": "Step Up & Be Heard: Readability Ideas", "total_pages": 1, "word_count": 175, "content": "<div>\n \n<div class=\"entry\">\n\t<p>When we launched Readability [snip] ...</div>\n</div>", "date_published": "2011-02-22 00:00:00", "next_page_id": null, "rendered_pages": 1 }
对于那里的硬核人员,从这里检查可读性 nodeJS、ruby 和 python 端口 http://arrix.blogspot.com/2010/11/server-side-readability-with-nodejs.html
快乐编码
关于html - 如何实现类似 Arc90 的 Readability 或 Instapaper 的 html 页面洗涤器?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3724619/