solr - 语义搜索引擎

标签 solr search-engine rdf sparql semantic-web

我想为我的最后一年硕士学位设计一个语义搜索引擎。我在网络上和学术论文上都进行了大量的阅读,所以我在这个领域并不是一个十足的菜鸟。

我的目标是构建一个语义搜索引擎,它将 HTML 内容解析为其等效的 RDF 三元组,将三元组存储在三元组中,通过该引擎将尝试响应使用 SPARQL 触发的查询。我想做一些与其他学生不同的事情。因此,我决定构建一个语义搜索引擎。

现在,我有一个正在运行的搜索引擎,使用 Solr 执行关键字搜索,我想做的是语义搜索。我知道一些有关 Web 3.0 的开源工具,但不确定它们是否与 Solr 兼容。

那么,您能否为我提供一些构建相同的帮助。

谢谢。 问候

最佳答案

虽然听起来很难,但你无法捕捉到一切。

  1. 您需要大量数据。当然,已经有很多数据以 owl 和 rdf 等格式排列,您可以使用它们(例如 WordNet、Yago、GeoNames 等),但尽管它们规模巨大,但它们只关注可能的话语中的很小一部分宇宙。

  2. 开发良好的语义搜索需要大量资源和脑力。像德国人工智能研究中心的 KompParse 这样的项目,只关注人类对话的一小部分(八卦或购买家具),到目前为止,已经有几名员工运行了几年,而且仍然“还好”。

  3. 语义理解已经在不同的搜索引擎中实现,例如google,或者wolfram alpha。因此,这个主题可能并不像您想象的那么“开箱即用”。

所以我会选择 user723630 并强烈建议你专注于一个较小的主题。您仍然会取得很多成就,但不会感到沮丧。

关于solr - 语义搜索引擎,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11585816/

相关文章:

java - 如何在我的服务器上使用 Lucene

java - Lucene 索引器在小型文档集合上出现内存不足问题

ruby-on-rails - 如何阻止谷歌搜索链接到 https?

Python Sparql 查询本地文件

rdf - Apache Jena 获取 "ERROR riot"处理元素

java - 自定义过滤器不适用于 solr

lucene - solr 搜索不存在字段的文档

magento - SOLR 4.1 抛出 : Unknown commit parameter 'waitFlush' ?

seo - 使用 robots.txt 阻止来自搜索引擎的 100 多个 url

rdf - 解析模型后 Redland RDF 中 RDF 节点的生命周期?