hadoop - 如何使用Stanford NER CFR训练大型数据集

标签 hadoop machine-learning stanford-nlp

我正在使用Stanford's NER CRF，并且想要训练一个大型数据集，比方说10万条新闻报道。如何训练数据，需要多长时间？我是机器学习 Realm 的新手，并且希望获得一些指导。

问题1:
所有这些变量是什么意思？我应该特别注意哪些？
numClasses: 8 numDocuments: 100 numDatums: 48721 numFeatures: 168489 Time to convert docs to data/labels: 1.0 seconds numWeights: 4317368 QNMinimizer called on double function of 4317368 variables, using M = 25.
问题2:我应该在一台机器或像Hadoop这样的分布式系统上运行培训吗？

问题3:计算似乎占用大量CPU和内存，如何克服这些要求？

最佳答案

您能否提供有关训练数据的更多详细信息。通常，您会在带有人标签的数据(例如2003 CoNLL数据集)上训练NER系统。您有多少个人标签数据？

NER系统的常见问题解答对减少内存有一些建议:

http://nlp.stanford.edu/software/crf-faq.shtml#d

目前，无法在多台机器上运行NER训练。

我对此并不满意，但我认为默认情况下，CRFClassifier在评估渐变时会使用多线程...如果未使用多线程，请在属性中添加以下内容，以使其开始使用多具有指定线程数的线程: