parsing - 寻找主要内容的启发式方法

标签 parsing nlp web-crawler

想知道是否有人可以向我指出学术论文的方向或启发式方法的相关实现,以查找特定网页的真实内容。

显然这不是一个简单的任务,因为问题描述是如此模糊,但我认为我们都对页面主要内容的含义有一个大致的了解。

例如,它可能包括新闻文章的故事文本,但可能不包括任何导航元素、法律免责声明、相关故事预告片、评论等。文章标题、日期、作者姓名和其他元数据属于灰色类别。

我认为这种方法的应用值(value)很大,并且希望谷歌在他们的搜索算法中以某种方式使用它,所以在我看来,这个主题过去已经被学术界对待过。

有引用资料吗?

最佳答案

看待这个问题的一种方法是将其视为信息提取问题。

因此,一种高级算法是收集相同页面类型的多个示例,并推断页面不同部分的解析(或提取)规则(这可能是主要主题)。直觉是,常见的样板文件(页眉、页脚等)和广告最终会出现在这些网页的多个示例上,因此通过对其中一些示例进行训练,您可以快速开始可靠地识别此样板文件/附加代码,然后忽略它。它并非万无一失,但这也是商业和学术网络抓取技术的基础,例如 RoadRunner:

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.21.8672&rep=rep1&type=pdf

引文是:

Valter Crescenzi, Giansalvatore Mecca, Paolo Merialdo: RoadRunner: Towards Automatic Data Extraction from Large Web Sites. VLDB 2001: 109-118

还有一项被广泛引用的提取技术调查:

Alberto H. F. Laender , Berthier A. Ribeiro-Neto , Altigran S. da Silva , Juliana S. Teixeira, A brief survey of web data extraction tools, ACM SIGMOD Record, v.31 n.2, June 2002 [doi>10.1145/565117.565137]

关于parsing - 寻找主要内容的启发式方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5025426/

相关文章:

java - 从 java 属性文件中读取 int[]

artificial-intelligence - 如何以编程方式确定网站内容的编写语言

java - 在 Java 中加载 StanfordOpenNLP 模型的巨大开销?

python - 我如何在Python中手动管理内存?

open-source - 有人知道一个好的可扩展的开源网络爬虫吗?

javascript - Crockfords 自上而下运算符优先级

Android Spinner 适配器和 Lollipop

java - 我的代码似乎效率低下并引发 jdbc 异常

python - 直接从打包的 tar.gz 文件加载 spacy 模型

java - 爬虫引擎架构——Java/Perl整合