我有兴趣查找随机网页的主题或主题,并将其链接到 RDF 数据库(例如 dbpedia)中的实体。我想知道是否有任何工具/库可以做到这一点,或者是否有人尝试过这样做?
最佳答案
查找网页的主题可能最接近 Automatic Summarization (参见同名维基百科页面)。用于此目的的子任务之一是关键短语提取 (KE)。 KE 将从输入文本中返回与该文本项重要/突出/相关的子字符串(短语)。如果您假设命名实体通常是输入文本主题的关键,那么命名实体识别 (NER) 将是您想要的另一个可能的子任务。 NER 将返回实体名称的子字符串以及实体的类型。
根据您的描述,您似乎不仅仅在寻找 KE 或 NER,因为您提到链接到知识库 (KB),例如 DBpedia。一个名为 DBpedia Spotlight 的工具正是这样做的。您可以将其配置为查找输入文本中的每个 DBpedia 资源,或者仅查找关键短语、仅查找命名实体等。所有这些最终都会链接到 DBpedia。看看:http://spotlight.dbpedia.org
还有其他工具,如 AlchemiAPI、Zemanta、WikiMachine、Evri、HeadUp、Enrycher 等。但据我所知,DBpedia Spotlight 是唯一一个免费、开源 (Apache V2) 并允许您配置的工具短语识别和消歧的行为类似。 (免责声明:我是 DBpedia Spotlight 的共同创建者)
关于web - 查找网页的主题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9314183/