web - 查找网页的主题

标签 web web-scraping rdf ontology

我有兴趣查找随机网页的主题或主题,并将其链接到 RDF 数据库(例如 dbpedia)中的实体。我想知道是否有任何工具/库可以做到这一点,或者是否有人尝试过这样做?

最佳答案

查找网页的主题可能最接近 Automatic Summarization (参见同名维基百科页面)。用于此目的的子任务之一是关键短语提取 (KE)。 KE 将从输入文本中返回与该文本项重要/突出/相关的子字符串(短语)。如果您假设命名实体通常是输入文本主题的关键,那么命名实体识别 (NER) 将是您想要的另一个可能的子任务。 NER 将返回实体名称的子字符串以及实体的类型。

根据您的描述,您似乎不仅仅在寻找 KE 或 NER,因为您提到链接到知识库 (KB),例如 DBpedia。一个名为 DBpedia Spotlight 的工具正是这样做的。您可以将其配置为查找输入文本中的每个 DBpedia 资源,或者仅查找关键短语、仅查找命名实体等。所有这些最终都会链接到 DBpedia。看看:http://spotlight.dbpedia.org

还有其他工具,如 AlchemiAPI、Zemanta、WikiMachine、Evri、HeadUp、Enrycher 等。但据我所知,DBpedia Spotlight 是唯一一个免费、开源 (Apache V2) 并允许您配置的工具短语识别和消歧的行为类似。 (免责声明:我是 DBpedia Spotlight 的共同创建者)

关于web - 查找网页的主题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9314183/

相关文章:

python - 使用 BeatifulSoup find_all 时找不到元素

html - 如何删除表格中的特定行

database - 我可以做些什么来处理网站上用户的不良行为?

c++ - 连接到网站时如何获取信息?

web - 如何知道我的网站被抓取了?

r - 从 stats.nba.com 抓取数据,在 curl::curl_fetch_memory(url, handle = handle) 中获取错误

mysql - 在 Netbeans 中找不到 MySQL 连接器

SPARQL CONCAT() 和 STR() 与 CONSTRUCT

rdf - RDF/OWL/etc的可表达性有什么限制

indexing - 三元组是否使用或需要索引?