mysql - 如何找到相似的结果并按相似度排序？

如何查询按相似度排序的记录？

例如。搜索“Stock Overflow”会返回

堆栈溢出
SharePoint 溢出
数学溢出
政治溢出
视觉特效溢出

例如。搜索“LO”将返回:

毕加索毕加索
米开朗琪罗
jackson 波洛克

我需要什么帮助:

使用搜索引擎对 MySQL 表进行索引和搜索，以获得更好的结果
- 使用 Sphinx搜索引擎，使用 PHP
- 使用 Lucene PHP引擎
使用全文索引，查找相似/包含的字符串

有什么不好的地方

Levenshtein distance非常不稳定。 ( UDF , Query )
搜索“狗”给了我:
1. 狗
2. 沼泽
3. 以前
4. 大
5. 回声
LIKE 返回更好的结果，但对于长查询不返回任何内容，尽管确实存在类似的字符串
1. 狗
2. 狗狗
3. 狗狗
4. 教条

最佳答案

我发现，当您针对另一个完整字符串搜索完整字符串时，Levenshtein 距离可能很好，但是当您在字符串中查找关键字时，此方法不会(有时)返回所需的结果。而且，SOUNDEX 功能不适合英语以外的其他语言，所以它是相当有限的。您可以使用 LIKE，但它确实适用于基本搜索。您可能需要查看其他搜索方法以了解您想要实现的目标。例如:

您可以使用 Lucene作为您项目的搜索库。它已在大多数主要编程语言中实现，并且速度非常快且用途广泛。这种方法可能是最好的，因为它不仅搜索子字符串，还搜索字母换位、前缀和后缀(全部组合)。但是，您需要保留一个单独的索引(尽管偶尔使用 CRON 从独立脚本更新它是可行的)。

或者，如果您想要一个 MySQL 解决方案，全文功能非常好，而且肯定比存储过程快。如果您的表不是 MyISAM，您可以创建一个临时表，然后执行全文搜索:

CREATE TABLE IF NOT EXISTS `tests`.`data_table` (
  `id` int(10) unsigned NOT NULL AUTO_INCREMENT,
  `title` varchar(2000) CHARACTER SET latin1 NOT NULL,
  `description` text CHARACTER SET latin1 NOT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB  DEFAULT CHARSET=utf8 COLLATE=utf8_bin AUTO_INCREMENT=1 ;

使用 data generator如果您不想自己创建一些随机数据...

** 注意 **:列类型应该是 latin1_bin 以执行区分大小写的搜索，而不是使用 latin1 不区分大小写。对于 unicode 字符串，我建议 utf8_bin 用于区分大小写，utf8_general_ci 用于不区分大小写的搜索。

DROP TABLE IF EXISTS `tests`.`data_table_temp`;
CREATE TEMPORARY TABLE `tests`.`data_table_temp`
   SELECT * FROM `tests`.`data_table`;

ALTER TABLE `tests`.`data_table_temp`  ENGINE = MYISAM;

ALTER TABLE `tests`.`data_table_temp` ADD FULLTEXT `FTK_title_description` (
  `title` ,
  `description`
);

SELECT *,
       MATCH (`title`,`description`)
       AGAINST ('+so* +nullam lorem' IN BOOLEAN MODE) as `score`
  FROM `tests`.`data_table_temp`
 WHERE MATCH (`title`,`description`)
       AGAINST ('+so* +nullam lorem' IN BOOLEAN MODE)
 ORDER BY `score` DESC;

DROP TABLE `tests`.`data_table_temp`;

从 MySQL API reference page 了解更多信息

这样做的缺点是它不会寻找字母换位或“相似，听起来像”的词。

** 更新 **

使用 Lucene 进行搜索，您只需要创建一个 cron 作业(所有 Web 主机都具有此“功能”)，该作业将简单地执行 PHP 脚本(例如“cd/path/to/script; php searchindexer .php") 将更新索引。原因是索引数千个“文档”(行、数据等)可能需要几秒钟甚至几分钟，但这是为了确保尽可能快地执行所有搜索。因此，您可能希望创建一个延迟作业以由服务器运行。它可能是一夜之间，或者在接下来的一个小时内，这取决于你。 PHP 脚本应如下所示:

$indexer = Zend_Search_Lucene::create('/path/to/lucene/data');

Zend_Search_Lucene_Analysis_Analyzer::setDefault(
  // change this option for your need
  new Zend_Search_Lucene_Analysis_Analyzer_Common_Utf8Num_CaseInsensitive()
);

$rowSet = getDataRowSet();  // perform your SQL query to fetch whatever you need to index
foreach ($rowSet as $row) {
   $doc = new Zend_Search_Lucene_Document();
   $doc->addField(Zend_Search_Lucene_Field::text('field1', $row->field1, 'utf-8'))
       ->addField(Zend_Search_Lucene_Field::text('field2', $row->field2, 'utf-8'))
       ->addField(Zend_Search_Lucene_Field::unIndexed('someValue', $someVariable))
       ->addField(Zend_Search_Lucene_Field::unIndexed('someObj', serialize($obj), 'utf-8'))
  ;
  $indexer->addDocument($doc);
}

// ... you can get as many $rowSet as you want and create as many documents
// as you wish... each document doesn't necessarily need the same fields...
// Lucene is pretty flexible on this

$indexer->optimize();  // do this every time you add more data to you indexer...
$indexer->commit();    // finalize the process

那么，这基本上就是你的搜索方式(基本搜索):

$index = Zend_Search_Lucene::open('/path/to/lucene/data');

// same search options
Zend_Search_Lucene_Analysis_Analyzer::setDefault(
   new Zend_Search_Lucene_Analysis_Analyzer_Common_Utf8Num_CaseInsensitive()
);

Zend_Search_Lucene_Search_QueryParser::setDefaultEncoding('utf-8');

$query = 'php +field1:foo';  // search for the word 'php' in any field,
                                 // +search for 'foo' in field 'field1'

$hits = $index->find($query);

$numHits = count($hits);
foreach ($hits as $hit) {
   $score = $hit->score;  // the hit weight
   $field1 = $hit->field1;
   // etc.
}

这里是 Java 中关于 Lucene 的精彩网站, PHP , 和 .Net .

总结每种搜索方法都有自己的优缺点:

您提到了Sphinx search它看起来非常好，只要您可以让守护程序在您的虚拟主机上运行。
Zend Lucene 需要一个 cron 作业来重新索引数据库。虽然它对用户非常透明，但这意味着任何新数据(或已删除的数据!)并不总是与数据库中的数据同步，因此不会立即显示在用户搜索中。
MySQL FULLTEXT 搜索既好又快，但不会为您提供前两者的所有功能和灵 active 。

如果我忘记/遗漏了什么，请随时发表评论。

关于mysql - 如何找到相似的结果并按相似度排序？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3338889/

mysql - 如何找到相似的结果并按相似度排序？

我需要什么帮助:

有什么不好的地方

上一篇：MySQL Workbench 编辑表数据是只读的

下一篇：mysql - 何时使用日期时间或时间戳