java - 是否有可以在Hadoop上运行的多语言时态标记器?

标签 java datetime hadoop nlp stanford-nlp

我需要从大量文本中提取日期。语言越多越好;至少英语,西类牙语和葡萄牙语。是否存在这样的工具?在Java和Mavenized?这是我发现的:

  • http://code.google.com/p/heideltime/许多语言和令人印象深刻的在线演示,但需要一些奇怪的外部依赖关系,我怀疑这将使群集部署变得困难/不可能
  • http://nlp.stanford.edu/software/sutime.shtml有据可查,但仅英语。容易训练?
  • http://natty.joestelmach.com/仅英语
  • https://github.com/samtingleff/jchronic仅英语
  • http://code.google.com/p/nltk/source/browse/trunk/nltk_contrib/nltk_contrib/timex.py仅英语

  • 我还应该看哪里?

    最佳答案

    您可能会发现Apache Tika有用。

    关于java - 是否有可以在Hadoop上运行的多语言时态标记器?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17241917/

    相关文章:

    Hadoop:只使用 2 台机器的缺点?

    java - Thread.getContextClassLoader() == null?

    java - Intent-filter 在 Android Studio 中构建两个应用程序而不是一个应用程序

    java - 您可以从 JobParameters 或配置发送 Spring Batch 提交间隔吗?

    php - 自定义报告Magento中与时区的区别

    python - 如何在groupby期间将agg函数中的日期字符串转换为日期时间

    model-view-controller - MVC datatype.datetime 有值但不显示

    hadoop - 如何创建 hive 仓库目录?

    java - Hadoop-1.0.1中的java.lang.NoClassDefFoundError

    java - Clojure:将 Spark 工厂方法与 Java 互操作结合使用