我从特定 URL 中提取文章以转换为句子,但文本正文具有消除某些句子之间空格的随机行为,导致:
Jane went to the store.She bought a dog. The dog was very friendly.It had no teeth.
我的一些文本是股票代码(AZ.GAN)等。所以我不能简单地在没有相邻空格的所有句点之间插入空格。
Jane bought several shares of (TY.JPN). She lost all her cash money."Arg!" She cried.
上面的示例将破坏股票代码变量。
很好奇是否有人知道其中的原因。我已经尝试了几种 HTML 和 DOM。我使用 Simple_DOM 来获取明文。尽管如此,如果我手动执行或使用任何其他解析引擎,我会得到相同的结果。
最佳答案
不幸的是,我没有办法解决您的具体问题,但是句子之间缺少的空格实际上是否有可能是您的文本查看器(无论它是什么)没有向您显示的换行符(例如\n)?
也许尝试这样的事情只是为了确保
var articleContent = ... // get content<br/>
articleContent = articleContent.replace(/\n/g, ' NEW LINE ');
关于php - 如何修复从 HTML 中提取的纯文本的句子间距?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5826066/