所以,这个问题可能有点幼稚,但我认为询问 Stackoverflow 的友好人士不会有什么坏处。
我现在的公司已经使用第三方 API 进行 NLP 一段时间了。我们基本上对一个字符串进行 URL 编码并发送它,然后他们为我们提取某些实体(我们有一个我们正在寻找的实体列表)并返回实体的 json 映射:sentiment。我们最近决定将这个项目引入内部。
过去 2 天我一直在研究 NLTK、Stanford NLP 和 lingpipe,但不知道我是否基本上是在重新发明轮子来做这个项目。
我们已经有大量包含原始非结构化文本的表格和另一个包含从该文本中提取的实体及其情感的表格。实体是单个词。例如:
Unstructured text : Now for the bed. It wasn't the best.
Entity : Bed
Sentiment : Negative
我相信这意味着我们有训练数据(非结构化文本)以及实体和情感。现在我如何在 NLP 框架之一上使用这些训练数据并获得我们想要的?没有线索。我有一些步骤,但不确定:
但是对于我上面提到的案例,这应该失败,因为它用两个不同的句子谈论床?
所以问题 - 有没有人知道完成上述任务的最佳框架是什么,以及任何相同的教程(注意:我不是在寻求解决方案)。如果你以前做过这些东西,这个任务是否太大而无法承担?我已经查找了一些商业 API,但它们的使用成本高得离谱(我们是一家小型初创公司)。
感谢堆栈溢出!
最佳答案
OpenNLP 也可以看看库。至少他们有一个小教程来训练名称查找器并使用文档分类器进行情感分析。要查找名称查找器,您必须通过使用 SGML 标签标记文本中的实体来准备训练数据。
http://opennlp.apache.org/documentation/1.5.3/manual/opennlp.html#tools.namefind.training
关于nlp - 使用 NLP 的实体识别和情感分析,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22646060/