我正在使用Stanford's NER CRF,并且想要训练一个大型数据集,比方说10万条新闻报道。如何训练数据,需要多长时间?我是机器学习 Realm 的新手,并且希望获得一些指导。
问题1:
所有这些变量是什么意思?我应该特别注意哪些?
numClasses: 8
numDocuments: 100
numDatums: 48721
numFeatures: 168489
Time to convert docs to data/labels: 1.0 seconds
numWeights: 4317368
QNMinimizer called on double function of 4317368 variables, using M = 25.
问题2:我应该在一台机器或像Hadoop这样的分布式系统上运行培训吗?
问题3:计算似乎占用大量CPU和内存,如何克服这些要求?
最佳答案
http://nlp.stanford.edu/software/crf-faq.shtml#d
multiThreadGrad=4
关于hadoop - 如何使用Stanford NER CFR训练大型数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35792390/