java - 如何获取ZZ_CMAP_PACKED中的word boundary?

标签 java unicode lucene elasticsearch-plugin word-boundary

我正在尝试编写我的第一个 Elasticsearch 分析插件,我从 github 上找到了一个可扩展标准分析器插件项目:elasticsearch-analysis-standardext ,在项目中它提供了以下代码:

   /** 
    * Word Boundary "character classes" that are used in the ZZ_CMAP_PACKED 
    * string 
    */ 
   public static final Character WB_CLASS_BREAK               = '\0'; 
   public static final Character WB_CLASS_LETTER              = '\176'; 
   public static final Character WB_CLASS_NUMERIC             = '\200'; 
   public static final Character WB_CLASS_MID_LETTER          = '\202'; 
   public static final Character WB_CLASS_MID_NUMBER          = '\203'; 
   public static final Character WB_CLASS_MID_NUMBER_LETTER   = '\204'; 
   public static final Character WB_CLASS_EXTENDED_NUM_LETTER = '\205'; 
   public static final Character WB_CLASS_SINGLE_QUOTE        = '\212'; 
   public static final Character WB_CLASS_DOUBLE_QUOTE        = '\213'; 

这是 link

我想知道如何获取这些单词边界的字符类。

我问作者问题:How to get word boundaries "character classes"? #2 , 但作者似乎不会回答我的问题。

我尝试阅读 Unicode 文本分段文档:https://www.unicode.org/reports/tr29/ , 但我真的找不到我想要的东西,因为它很难阅读。

我从 lucene 存储库下载标准分析器代码,它在这里:https://github.com/apache/lucene-solr/tree/releases/lucene-solr/8.1.0/lucene/core/src/java/org/apache/lucene/analysis/standard

StandardTokenizerImpl.java 类似乎是从StandardTokenizerImpl.jflex 生成的,我可以借助jfex 获取这些单词边界的字符类吗?

感谢有人帮助我。

最佳答案

我发现我们可以从文档中得到这个世界的边界:https://www.unicode.org/reports/tr29/#Word_Boundaries , 自从项目 elasticsearch-analysis-standardext确实是老版本的elasticsearch。它不适用于 Elasticsearch 版本 = 7.3.2。

而且我们可以发现现在Lucene不支持像ALetter这样的简单世界边界,它的格式将是

MidLetterEx         = [\p{WB:MidLetter}\p{WB:MidNumLet}\p{WB:SingleQuote}] 

从文件StandardTokenizerImpl.jflex可以看出

所以如果你想从ZZ_CMAP_PACKED中获取世界边界,你应该引用文档Word_Boundaries .

如果您想编写自定义 StandardTokenizer,这可能会对您有所帮助。

也可以引用Lucene项目中的ClassicTokenizer,对你有帮助!

关于java - 如何获取ZZ_CMAP_PACKED中的word boundary?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58353104/

相关文章:

tomcat - 如何阻止 Tomcat 重启删除 Solr 核心

solr - Lucene - Solr 版本兼容性

java - 来自 Spring <form :form> 的额外属性

java - Leaderboard_id 无法解析或不是字段错误

java - 从 Tapestry 代码执行 HTTP 请求

java - Unicode 文本在 awt 标签中显示不正确

java - 为什么我不需要为这个 swing helloworld 输入返回类型?

python - Tornado url 正则表达式 unicode 字符

python检查utf-8字符串是否为大写

solr - 如何禁用 shardsWhitelist,我收到以下错误