ios - iOS 上 MeCab 日语分词器的选项?

标签 ios tokenize cjk mecab

我正在使用位于 https://github.com/FLCLjp/iPhone-libmecab 的 MeCab iPhone 库.我在标记所有可能的单词时遇到了一些麻烦。具体来说,我不能将“吉本兴业”标记为“吉本”和“兴业”两部分。我可以使用任何选项来解决此问题吗? iPhone 库不公开任何内容,但它在 objective-c 包装器下使用 C++。我假设一定有某种设置可以更改以提供更细粒度的控制,但我不知道从哪里开始。

顺便说一下,如果有人想标记这个“mecab”可能是合适的。我还不能创建新标签。

更新:iOS 库正在调用 libmecab.cpp 中定义的 mecab_sparse_tonode2()。如果有人能指出有关该文件的一些英文文档,这可能就足够了。

最佳答案

其中没有任何特定于 iOS 的东西。您与 mecab(可能是 ipadic)一起使用的字典包含公司名称吉本兴业的条目。尽管名称的两个部分也被列为单独的名词,但 mecab 强烈倾向于将复合名称标记为一个词。

Mecab 缺少允许用户选择是否应将化合物拆分为多个部分的功能。请注意,这样的功能通常很难实现,因为并不是每个人都同意哪些化合物可以拆分,哪些不能。例如。容疑者是由容疑和者合成的吗?从纯粹的形态学角度来看也许是,但对于大多数实际应用来说可能不是。

如果您有一个要分割的化合物列表,一个快速的解决方法是为它们所包含的部分创建一个用户词典,并让 mecab 在主词典之外使用它。

有关如何执行此操作的日语文档 here .对于您的特定示例,它将涉及以下步骤。

  1. 用两个词条做一个用户字典,一个是吉本,一个是兴业:

    吉本,,,100,名詞,固有名詞,人名,名,*,*,よしもと,ヨシモト,ヨシモト
    興業,,,100,名詞,一般,*,*,*,*,こうぎょう,コウギョウ,コウギョウ
    

    我怀疑这两个条目已经存在于默认字典中,但是通过将它们添加到用户字典并指定一个相对较低的特异性指示符(我对两者都使用了 100 - 较低的, split 的可能性越大),你可以让 mecab 倾向于更喜欢部分而不是整体。

  2. 编译用户字典:

    $> $MECAB/libexec/mecab/mecab-dict-index  -d /usr/lib64/mecab/dic/ipadic -u mydic.dic -f utf-8 -t utf-8 ./mydic
    

    您可能需要调整命令。以上假设:

    1. Mecab 是从 $MECAB 中的源代码安装的。如果您使用由包管理器安装的 mecab,您可能很难找到 mecab-dict-index 工具。最好从源安装。

    2. 默认字典在 /usr/lib64/mecab/dict/ipadic 中。这不是 mecab 包的一部分;它作为一个单独的包提供(例如 this ),您可能也很难找到它。

    3. mydic 是在步骤 1 中创建的用户词典的名称。mydic.dic 是您将作为输出获得的已编译词典的名称 (不需要存在)。

    4. 系统字典(-t 选项)和用户字典(-f 选项)都使用 UTF-8 编码。这可能是错误的,在这种情况下,您稍后会在使用 mecab 时收到错误消息。

  3. 修改 mecab 配置。在系统范围的安装中,这是一个名为 /usr/lib64/mecab/dic/ipadic/dicrc 或类似名称的文件。在您的情况下,它可能位于其他地方。将以下行添加到配置文件的末尾:

    userdic = home/myhome/mydic.dic
    

    确保上面编译的字典的绝对路径是正确的。

如果您随后针对您的输入运行 mecab,它会将化合物拆分成多个部分(我在 Linux 系统上使用 mecab 0.994 对其进行了测试)。

更彻底的修复方法是获取默认词典的来源并手动删除所有要拆分的复合名词,然后重新编译词典。作为一般性评论,在较长一段时间内将 CJK 分词器用于生产模式下的严肃应用程序通常需要定期进行一定量的字典维护(添加/删除条目)。

关于ios - iOS 上 MeCab 日语分词器的选项?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14690036/

相关文章:

c++ - 在 C++ 中删除韩语字符串中的子字符串

ios - 如何获取uiimage的原始nsdata?

ios - 在 iOS 中点击号码即可调用电话

full-text-search - Google Sites API 全文搜索不适用于非西方语言

android - 如何让android设备 "speak"中文?

database - 数据库如何对汉字进行排序?

iphone - 无限滚动 - setContentOffset : stops deceleration of UIScrollView

ios - 苹果映射内存占用

c++ - 用于引号和括号的 Boost.Tokenizer

string - Oracle PL/SQL 中有分割字符串的函数吗?