javascript - 提取文章的主要内容(JavaScript)

标签 javascript algorithm extract html-content-extraction

我正在编写一个程序来读取一般的 HTML“文章”页面(维基百科、纽约时报、雅虎新闻等)。我想从该页面去除所有“噪音”(广告、标题栏……任何不属于文章内容的内容。) 换个 Angular 想,我想保留最重要的东西。 (主要内容、标题、作者)

我想想出一个聪明的方法来找到文章的主要内容我有一些想法,但它们并不是我想要的。 我不想解析 DOM 中的每个节点。我目前的想法是使用元素的大小。

任何想法都会受到赞赏。从本质上讲,这是一个设计问题。

谢谢。

最佳答案

我认为自己设置解析器可能太复杂了。通常有没有语义元素和其他内容的糟糕标记。

你可以做的是使用 Parser API from Readability .如果您使用的是 NodeJS,则可以执行 http.get 请求,如果您在浏览器中使用 Javascript,则可以向 API 发出 ajax 请求。

关于javascript - 提取文章的主要内容(JavaScript),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30520582/

相关文章:

javascript - 无法创建MySQL数据库的链式分页

java - 如何使用/修改 Knuth-Morris-Pratt 算法将任何给定字符串转换为回文

c# - 直观地提取html元素

python - python如何从PDF中提取带注释的页面?

YUI 日历的 c# 到 javascript

javascript - 在 AngularJs 中选中的 radio 旁边的标签添加颜色

javascript - 需要垫片设置 - jquery.flot/jquery.flot.selection

algorithm - 适用于事件日历应用程序的最佳数据结构

algorithm - 找到最接近的具有相同权重 O(1) 的整数

python - 无法使用 python 从 Json 文件中获取特定值