php - 如何修复从 HTML 中提取的纯文本的句子间距?

标签 php html parsing whitespace simpledom

我从特定 URL 中提取文章以转换为句子,但文本正文具有消除某些句子之间空格的随机行为,导致:

Jane went to the store.She bought a dog. The dog was very friendly.It had no teeth.

我的一些文本是股票代码(AZ.GAN)等。所以我不能简单地在没有相邻空格的所有句点之间插入空格。

Jane bought several shares of (TY.JPN). She lost all her cash money."Arg!" She cried.

上面的示例将破坏股票代码变量。

很好奇是否有人知道其中的原因。我已经尝试了几种 HTML 和 DOM。我使用 Simple_DOM 来获取明文。尽管如此,如果我手动执行或使用任何其他解析引擎,我会得到相同的结果。

最佳答案

不幸的是,我没有办法解决您的具体问题,但是句子之间缺少的空格实际上是否有可能是您的文本查看器(无论它是什么)没有向您显示的换行符(例如\n)?

也许尝试这样的事情只是为了确保

var articleContent = ... // get content<br/> articleContent = articleContent.replace(/\n/g, ' NEW LINE ');

关于php - 如何修复从 HTML 中提取的纯文本的句子间距?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5826066/

相关文章:

php - 如何在 PHP 中的数组中使用数组引用?

javascript - PHP 中的甜蜜警报

javascript - PHP Ajax 图片上传错误

javascript - FileEntry.file 方法使 dataTransferItemList 为空

php - 创建广告多维数组并使用 foreach 循环显示它

html - 自定义选择箭头 - Chrome 与 Internet Explorer 显示问题

jquery - CSS 自定义 JQuery ui 对话框

http - 解析 HTTP - Bytes.length != String.length

c# - 阅读 HTML?

php - 我应该存储已解析的文本吗?如果有,在哪里?