machine-learning - 有人会如何创建一种机器学习算法来从书籍/小说中提取说话者?

标签 machine-learning text-classification text-analysis

基本上根据演讲者来组织内容?

摘录自:罗伯特·路易斯·史蒂文森。 “杰基尔博士和海德先生的奇案。”

输入示例:

But Lanyon's face changed, and he held up a trembling hand. "I wish to see or hear no more of Dr. Jekyll," he said in a loud, unsteady voice. "I am quite done with that person; and I beg that you will spare me any allusion to one whom I regard as dead.

示例输出:

[

“Narrator”: “But Lanyon's face changed, and he held up a trembling hand.”,

“Lanyon”: “I wish to see or hear no more of Dr. Jekyll”,

“Narrator”: “he said in a loud, unsteady voice.”,

“Lanyon”: “I am quite done with that person; and I beg that you will spare me any allusion to one whom I regard as dead.”

]

最佳答案

我还没有听说过能做到这一点的算法。但是有两个众所周知的问题可能有用:命名实体识别(找到所有潜在的说话者)和照应解析(决定谁是“他”或“她”)是在每种情况下)。

您还需要训练一个分类器,针对每个引用的文本 block 来确定它是否是直接语音。您可能需要另一个分类器来决定每个已识别的语音片段以及上下文中每个已识别的说话者,该语音实际上属于该说话者的可能性有多大。

关于machine-learning - 有人会如何创建一种机器学习算法来从书籍/小说中提取说话者?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50660361/

相关文章:

nlp - 使用自动编码器进行文本分类的特征构建

algorithm - 查找文档中重复的语句

Python 上下文无关语法和 PCFG 生成基准?

python - 减少卷积神经网络的内存需求

tensorflow - 如何将保存的模型从sklearn转换为tensorflow/lite

python - scikit-learn 的 adaboost 中的权重问题

python - SKlearn SGD 部分拟合错误 : Number of features 378 does not match previous data 4598

java - 在java代码中嵌入数据文件

twitter - 如何将GATE Twitter PoS模型与斯坦福NLP集成?

compiler-construction - 如果我想从事人工智能和机器学习工作,我必须了解编译器理论吗