java - 文档中的项目符号在 GATE NLP 中变成问号

标签 java encoding nlp stanford-nlp gate

我是 GATE NLP 的新手。我有一份文档,其中包含项目符号。当我将其加载到 GATE 时。项目符号被检测为未知类型符号,打印为 。我还尝试将编码设置为 UTF-8。我还尝试以编程方式加载文档,然后项目符号被检测为 ?

谁能给我解释一下吗?

示例:

 拥有 2.5 年经验,晋升为高级技术成员(member)。

这是 GATE DEVELOPER UI 中的符号,当我“以编程方式”执行此操作时,会显示 ? 符号。

最佳答案

根据我的经验,docdocx 文件通常不会产生 字符。项目符号缺失(文本格式为项目符号列表)或打印为 (带有原始项目符号字符的文本)。

另请参阅此相关问题:Parsing either font style or block of paragraph in GATE

Pdf 文件通常会在 GATE 文档中生成“-项目符号”。它可能与一些 pdfApache PDFBox 问题有关,请参阅例如this one .

这些字符也有一个 unicode 值。在 XML 中,它们被编码为 。在这种情况下,我的建议是跟踪此类字符(根据原始项目符号字符,它们可能具有不同的 unicode 值)并将其替换为可打印的内容(例如 )。

关于?字符:我这可能是由于你的java环境不支持这些字符引起的。参见例如:Why Some Unicode Characters appears to be question mark in the console?

关于java - 文档中的项目符号在 GATE NLP 中变成问号,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38827011/

相关文章:

mysql - 为什么MySQL触发器变量不能处理特殊字符?

c# - 使用 C# 在 Livelink 中对德语字符 ß 进行编码

python - 如何解决sklearn拟合大数据时内存错误?

.net - 如何确定文档的(自然)语言?

python - [ orth , pos , tag , lema 和 text ] 的 spaCy 文档

java - Lambda 函数变成了 BiConsumer

java - 当您可以只使用具体类型时,为什么会有带有上限的通配符?

java - DateFormat 月份为大写

java - 是否可以在 Junit 5 中使用 Java 功能接口(interface)实现(例如 Supplier)作为 MethodSource?

java - 检查数据是否可以用指定的编码表示