python - 使用机器学习的段落分割

标签 python machine-learning nlp apache-tika text-segmentation

我有一个很大的 PDF 格式文档库。这些文件来自不同的来源，没有一种风格。我用 Tika从文档中提取文本，现在我想将文本分割成段落。

我不能使用正则表达式，因为文档没有单一样式:

数量\nl段落之间的变化在 2 和 4 之间。

在某些文档中，单个段落中的行由 2 \nl 分隔。，有的带单\nl .

所以我转向机器学习。在(伟大的)Python NLTK 书中，segmentation of sentences 很好地使用了分类。在 '.' 前后使用诸如字符之类的属性使用贝叶斯网络，但没有段落分割。

所以我的问题是:

有没有另一种方式进行段落分割？

如果我使用机器学习，是否有可用于训练的分段段落的标记数据？

最佳答案

令人惊讶的是，关于自动检测段落边界这一主题的研究很少。我发现了以下内容，所有这些都很旧:
斯波莱德和拉帕塔 (2004):Automatic Paragraph Identification: A Study across Languages and Domains
斯波莱德和拉帕塔 (2005):Broad coverage paragraph segmentation across languages and domains
Filippova 和 Strube (2006):Using Linguistically Motivated Features for Paragraph Boundary Identification
根泽尔 (2005) A Paragraph Boundary Detection System

关于python - 使用机器学习的段落分割，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41801762/

上一篇：spring - Cognito 自定义消息并包含用户属性

下一篇：docker-compose - 为什么 docker-compose 'down' 不采用可选的 [SERVICE...] 参数？

相关文章：

python - 随机森林中的超参数调整

python - NLP:识别给定文本是查询还是语句

python - 可以将矩阵作为 Keras 嵌入层的输入吗？

未找到 Python 模块，但该模块存在于文件夹中

Python 构造嵌套的 Try except 语句

python - Pygraphviz 安装失败，错误代码为 1083 无法打开文件 graphviz/cgraph.h : No such file or directory

python - 如何根据模型与特定对象的关联为模型添加辅助 ID？

machine-learning - Mahout 训练命令中的 '-c' 参数有什么作用？

matlab - Matlab 中的特征包和神经网络

Java 库/api 将语言代码转换为语言名称

©2024 IT工具网联系我们