java - 如何获取ZZ_CMAP_PACKED中的word boundary？

我正在尝试编写我的第一个 Elasticsearch 分析插件，我从 github 上找到了一个可扩展标准分析器插件项目:elasticsearch-analysis-standardext ，在项目中它提供了以下代码:

   /** 
    * Word Boundary "character classes" that are used in the ZZ_CMAP_PACKED 
    * string 
    */ 
   public static final Character WB_CLASS_BREAK               = '\0'; 
   public static final Character WB_CLASS_LETTER              = '\176'; 
   public static final Character WB_CLASS_NUMERIC             = '\200'; 
   public static final Character WB_CLASS_MID_LETTER          = '\202'; 
   public static final Character WB_CLASS_MID_NUMBER          = '\203'; 
   public static final Character WB_CLASS_MID_NUMBER_LETTER   = '\204'; 
   public static final Character WB_CLASS_EXTENDED_NUM_LETTER = '\205'; 
   public static final Character WB_CLASS_SINGLE_QUOTE        = '\212'; 
   public static final Character WB_CLASS_DOUBLE_QUOTE        = '\213';

这是 link

我想知道如何获取这些单词边界的字符类。

我问作者问题:How to get word boundaries "character classes"? #2 , 但作者似乎不会回答我的问题。

我尝试阅读 Unicode 文本分段文档:https://www.unicode.org/reports/tr29/ , 但我真的找不到我想要的东西，因为它很难阅读。

我从 lucene 存储库下载标准分析器代码，它在这里:https://github.com/apache/lucene-solr/tree/releases/lucene-solr/8.1.0/lucene/core/src/java/org/apache/lucene/analysis/standard

StandardTokenizerImpl.java 类似乎是从StandardTokenizerImpl.jflex 生成的，我可以借助jfex 获取这些单词边界的字符类吗？

感谢有人帮助我。

最佳答案

我发现我们可以从文档中得到这个世界的边界:https://www.unicode.org/reports/tr29/#Word_Boundaries , 自从项目 elasticsearch-analysis-standardext确实是老版本的elasticsearch。它不适用于 Elasticsearch 版本 = 7.3.2。

而且我们可以发现现在Lucene不支持像ALetter这样的简单世界边界，它的格式将是

MidLetterEx         = [\p{WB:MidLetter}\p{WB:MidNumLet}\p{WB:SingleQuote}]

从文件StandardTokenizerImpl.jflex可以看出

所以如果你想从ZZ_CMAP_PACKED中获取世界边界，你应该引用文档Word_Boundaries .

如果您想编写自定义 StandardTokenizer，这可能会对您有所帮助。

也可以引用Lucene项目中的ClassicTokenizer，对你有帮助!

关于java - 如何获取ZZ_CMAP_PACKED中的word boundary？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58353104/

java - 如何获取ZZ_CMAP_PACKED中的word boundary？

上一篇：java - 如何验证特定的子类？

下一篇：java - 如何将原 Material 转化为成品，使所有产品的可用天数最大化