我正在为客户构建一个网站,该网站基本上将来自不同来源的大量提要重新组合在一起。
我目前的问题是来源之间可能有重复的内容,我需要找到一个解决方案来比较在网站上发布之前收到的数据。
我的问题是,即使内容重复,有些内容可能会因来源而略有不同。 示例:
来源 1:
"Start your career in IT"
来源 2:
"Start your career in Information Technology"
来源 3:
"Starting your career in Information Technology"
所以我的问题是:是否有一种方法可以比较这些文本并在内容与现有内容相似(根据示例,我所说的相似,不一定相等)时收到警告网站?
Elasticsearch 可以帮助我吗? 实际上,我需要任何指示 :)
谢谢
最佳答案
我想你可以引用以下链接, Elasticsearch "More Like This" API vs. more_like_this query 它回答了类似的问题
关于php - 搜索文本以找到相似之处,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32185230/