我已经为我的应用程序实现了 lucene,它工作得很好,除非你引入了类似日文字符的东西。
问题是,如果我有日文字符串 こんニちは、このバイネイテす 并且我使用第一个字符 こ 进行搜索,那么它运行良好,而如果我在搜索 token 中使用多个日文字符(こんニち),则搜索失败并且没有找到文件。
lucene 是否支持日文字符?要使其正常工作需要进行哪些设置?
最佳答案
lucene内置分析器不支持日文。
您需要安装一些分析器,例如 sen , 这是 mecab 的 java 端口,相当流行的日本分析仪,而且速度很快。
有2个子类型叫做
- CJKAnalyzer,也支持中文和韩文,并使用二元词法
- JapaneseAnalyzer,它只支持日语,使用形态分析器并且应该非常快。
关于c# - Lucene 搜索日文字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2643348/