目前正在设计用于我网站的 CMS。我想知道是否有任何免费库可用于根据内容创建标签。
示例
I like trees. Trees are plants that have leaves. Leaves on tree can be multi-colored.
会产生标签trees和leaves。
库应该是 PHP 或 JS。
编辑 1:
我找到了一个简单的库来完成我的一半任务 - http://www.cafewebmaster.com/get-top-100-words-keywords-text-php
我已经编辑了库规范应该是什么(感谢 @NullUserException 的指导)-
计算所有单词(忽略大小写和变形),抛出停用词并选择频率最高的单词
编辑文本以使更特定于该类型的词(可能具有较低的频率)具有更高的值(value)。例如在示例中 - 'multi-colored' 应该变得更高值,因为它更针对主题。但是它应该包含一个前缀,表明它与主题相关(它会变成多色叶子)。
编辑 2:
算法应删除少于 3 个字符的单词除非它们是大写字母或采用其他格式
最佳答案
您的 CMS 上的标签是否已经定义?如果是,您可以在内存中为您的文本编制索引,并使用所有已知标签对您的文本进行搜索。选择得分最高的标签并呈现给用户。
索引和搜索可以用 http://lucene.apache.org/solr/ 完成
编辑:请注意,我确实建议您从管理面板定义和管理您的标签/关键字(例如在 wordpress 中)。否则,您最终会得到从您的文章中生成的数千个关键字,这对最终用户毫无帮助。
关于php - 什么是建议内容关键字的有效库?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7375985/