我是 GATE NLP
的新手。我有一份文档,其中包含项目符号。当我将其加载到 GATE 时。项目符号被检测为未知类型符号,打印为
。我还尝试将编码设置为 UTF-8
。我还尝试以编程方式加载文档,然后项目符号被检测为 ?
。
谁能给我解释一下吗?
示例:
拥有 2.5 年经验,晋升为高级技术成员(member)。
这是 GATE DEVELOPER UI
中的符号,当我“以编程方式”执行此操作时,会显示 ?
符号。
最佳答案
根据我的经验,doc
和 docx
文件通常不会产生
字符。项目符号缺失(文本格式为项目符号列表)或打印为 •
(带有原始项目符号字符的文本)。
另请参阅此相关问题:Parsing either font style or block of paragraph in GATE
Pdf
文件通常会在 GATE 文档中生成“
-项目符号”。它可能与一些 pdf 或 Apache PDFBox 问题有关,请参阅例如this one .
这些字符也有一个 unicode 值。在 XML 中,它们被编码为
。在这种情况下,我的建议是跟踪此类字符(根据原始项目符号字符,它们可能具有不同的 unicode 值)并将其替换为可打印的内容(例如 •
)。
关于?
字符:我这可能是由于你的java环境不支持这些字符引起的。参见例如:Why Some Unicode Characters appears to be question mark in the console?
关于java - 文档中的项目符号在 GATE NLP 中变成问号,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38827011/