python - 使用机器学习的段落分割

标签 python machine-learning nlp apache-tika text-segmentation

我有一个很大的 PDF 格式文档库。这些文件来自不同的来源,没有一种风格。我用 Tika从文档中提取文本,现在我想将文本分割成段落。

我不能使用正则表达式,因为文档没有单一样式:

  • 数量\nl段落之间的变化在 2 和 4 之间。
  • 在某些文档中,单个段落中的行由 2 \nl 分隔。 ,有的带单\nl .

  • 所以我转向机器学习。在(伟大的)Python NLTK 书中,segmentation of sentences 很好地使用了分类。在 '.' 前后使用诸如字符之类的属性使用贝叶斯网络,但没有段落分割。

    所以我的问题是:
  • 有没有另一种方式进行段落分割?
  • 如果我使用机器学习,是否有可用于训练的分段段落的标记数据?
  • 最佳答案

    令人惊讶的是,关于自动检测段落边界这一主题的研究很少。我发现了以下内容,所有这些都很旧:
    斯波莱德和拉帕塔 (2004):Automatic Paragraph Identification: A Study across Languages and Domains
    斯波莱德和拉帕塔 (2005):Broad coverage paragraph segmentation across languages and domains
    Filippova 和 Strube (2006):Using Linguistically Motivated Features for Paragraph Boundary Identification
    根泽尔 (2005) A Paragraph Boundary Detection System

    关于python - 使用机器学习的段落分割,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41801762/

    相关文章:

    python - 随机森林中的超参数调整

    python - NLP:识别给定文本是查询还是语句

    python - 可以将矩阵作为 Keras 嵌入层的输入吗?

    未找到 Python 模块,但该模块存在于文件夹中

    Python 构造嵌套的 Try except 语句

    python - Pygraphviz 安装失败,错误代码为 1083 无法打开文件 graphviz/cgraph.h : No such file or directory

    python - 如何根据模型与特定对象的关联为模型添加辅助 ID?

    machine-learning - Mahout 训练命令中的 '-c' 参数有什么作用?

    matlab - Matlab 中的特征包和神经网络

    Java 库/api 将语言代码转换为语言名称