hadoop - 如何使用Stanford NER CFR训练大型数据集

标签 hadoop machine-learning stanford-nlp

我正在使用Stanford's NER CRF,并且想要训练一个大型数据集,比方说10万条新闻报道。如何训练数据,需要多长时间?我是机器学习 Realm 的新手,并且希望获得一些指导。

问题1:
所有这些变量是什么意思?我应该特别注意哪些?
numClasses: 8 numDocuments: 100 numDatums: 48721 numFeatures: 168489 Time to convert docs to data/labels: 1.0 seconds numWeights: 4317368 QNMinimizer called on double function of 4317368 variables, using M = 25.
问题2:我应该在一台机器或像Hadoop这样的分布式系统上运行培训吗?

问题3:计算似乎占用大量CPU和内存,如何克服这些要求?

最佳答案

  • 您能否提供有关训练数据的更多详细信息。通常,您会在带有人标签的数据(例如2003 CoNLL数据集)上训练NER系统。您有多少个人标签数据?
  • NER系统的常见问题解答对减少内存有一些建议:

    http://nlp.stanford.edu/software/crf-faq.shtml#d
  • 目前,无法在多台机器上运行NER训练。
  • 我对此并不满意,但我认为默认情况下,CRFClassifier在评估渐变时会使用多线程...如果未使用多线程,请在属性中添加以下内容,以使其开始使用多具有指定线程数的线程:
    multiThreadGrad=4
    
  • 关于hadoop - 如何使用Stanford NER CFR训练大型数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35792390/

    相关文章:

    java - 创建项目时 Talend Open Studio 大数据错误

    python - 产品比价工具 : Difficulty in matching identical items

    python - 想要使用 python 中的机器学习来增加质心点。?

    machine-learning - 神经网络的命名约定

    stanford-nlp - 如何将标准管道(tokenize、ssplit、pos、lemma)与新解析器一起使用?

    language-agnostic - POS标记等中的缩写是什么意思?

    hadoop - 全分布式HBase报错

    hadoop - Hive 中用于百分比的数据类型是什么?

    machine-learning - 如何使用 stanford nlp 查找单词的将来时态

    oracle - 由于java.io.IOException,Sqoop导入失败:nextKeyValue中的SQLException