php - 如何从任何网页中仅提取主要内容? (没有页脚、菜单栏、导航栏、页脚、侧边栏、面包屑)

标签 php data-extraction html-content-extraction

我已经使用这段代码提取了整个正文内容。 但我不知道必须删除导航栏、页脚、侧边栏、面包屑。 谁能建议我如何完成这项工作?

foreach($dom->getElementsByTagName("body")->item(0)->childNodes as $child) {
$bodycontent .= $dom->saveHTML($child); }

最佳答案

您可以使用诸如可读性之类的东西,它已在多种语言中实现:

关于php - 如何从任何网页中仅提取主要内容? (没有页脚、菜单栏、导航栏、页脚、侧边栏、面包屑),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41633482/

相关文章:

phpmyadmin 和 mysql pdo lastInsertId()

php - PostgreSQL 搜索查询 - 检查空字段

google-maps - 如何在谷歌地图中提取大头针的纬度/经度?

linux - 从多个文件中提取数据列表

algorithm - PDF数据提取——需要建议

php - 从两个单独的表中选择数据作为 MySQL/PHP 中的新闻提要

java - 如何使用jsp从网页中提取链接?

html - 快速解析 HTML

perl - 使用 TreeBuilder 在 Perl 中提取链接

php - 是否可以在 PHP 中使用带有相对路径的curl?