我正在寻找基于 PHP 的最佳方式来扫描大量文本条目(分类广告)并提取关键字 - 有人知道词性标记吗?是否有类似 PHP 的方法来执行此操作?
我浏览了很多在线分类广告 - 但没有分类!为了加快分类过程,我正在寻找安装词性标注器 (http://en.wikipedia.org/wiki/Part-of-speech_tagging)。基本上,这些是很酷的文本解析算法软件包,可以告诉我哪些词是名词(如“公寓”、“汽车”、“狗”等)以及哪些词是垃圾词,如 at、if、and、but 等.但是...
有在线标记服务 - 一种是雅虎提供的,最近似乎越来越不受欢迎 - 另一种是 XEROX。但是,我真的很想安装自己的库/软件并将其插入到我的网络应用程序中。
有谁知道安装可与 PHP 网络应用程序一起使用的 POS 标记的好方法?我非常想弄清楚这一点,所以非常感谢您提供的任何信息、建议或其他智慧!
这里列出了很多不同的 POS 软件: http://www-nlp.stanford.edu/links/statnlp.html#Taggers (在“词性标注器”下查看)
感谢阅读本文!
最佳答案
Ian Barber 在他的 PHP/ir 上展示了 PHP 中的 Brill Tagger。他描述了使用它来分析推文的网站。
关于php - 如何实现词性 (POS) 标注器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4751104/