我有一个很大的 PDF 格式文档库。这些文件来自不同的来源,没有一种风格。我用 Tika从文档中提取文本,现在我想将文本分割成段落。
我不能使用正则表达式,因为文档没有单一样式:
\nl
段落之间的变化在 2 和 4 之间。\nl
分隔。 ,有的带单\nl
. 所以我转向机器学习。在(伟大的)Python NLTK 书中,segmentation of sentences 很好地使用了分类。在 '.' 前后使用诸如字符之类的属性使用贝叶斯网络,但没有段落分割。
所以我的问题是:
最佳答案
令人惊讶的是,关于自动检测段落边界这一主题的研究很少。我发现了以下内容,所有这些都很旧:
斯波莱德和拉帕塔 (2004):Automatic Paragraph Identification: A Study across Languages and Domains
斯波莱德和拉帕塔 (2005):Broad coverage paragraph segmentation across languages and domains
Filippova 和 Strube (2006):Using Linguistically Motivated Features for Paragraph Boundary Identification
根泽尔 (2005) A Paragraph Boundary Detection System
关于python - 使用机器学习的段落分割,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41801762/