我想为我的最后一年硕士学位设计一个语义搜索引擎。我在网络上和学术论文上都进行了大量的阅读,所以我在这个领域并不是一个十足的菜鸟。
我的目标是构建一个语义搜索引擎,它将 HTML 内容解析为其等效的 RDF 三元组,将三元组存储在三元组中,通过该引擎将尝试响应使用 SPARQL 触发的查询。我想做一些与其他学生不同的事情。因此,我决定构建一个语义搜索引擎。
现在,我有一个正在运行的搜索引擎,使用 Solr 执行关键字搜索,我想做的是语义搜索。我知道一些有关 Web 3.0 的开源工具,但不确定它们是否与 Solr 兼容。
那么,您能否为我提供一些构建相同的帮助。
谢谢。 问候
最佳答案
虽然听起来很难,但你无法捕捉到一切。
您需要大量数据。当然,已经有很多数据以 owl 和 rdf 等格式排列,您可以使用它们(例如 WordNet、Yago、GeoNames 等),但尽管它们规模巨大,但它们只关注可能的话语中的很小一部分宇宙。
开发良好的语义搜索需要大量资源和脑力。像德国人工智能研究中心的 KompParse 这样的项目,只关注人类对话的一小部分(八卦或购买家具),到目前为止,已经有几名员工运行了几年,而且仍然“还好”。
语义理解已经在不同的搜索引擎中实现,例如google,或者wolfram alpha。因此,这个主题可能并不像您想象的那么“开箱即用”。
所以我会选择 user723630 并强烈建议你专注于一个较小的主题。您仍然会取得很多成就,但不会感到沮丧。
关于solr - 语义搜索引擎,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11585816/