php - 如何从原始 HTML 文件中提取数据？

标签 php html parsing html-content-extraction

有没有一种方法可以从没有 ID 和 classes 的非语义编写的原始 html 中提取所需的数据？我的意思是，假设有一个已保存的网页(个人资料)的 html 文件，并且我想提取诸如“爱好”之类的数据。是否可以使用 PHP 来完成此操作？

最佳答案

使用regex !我开玩笑，我开玩笑。如果您知道同一页面的状态，并且保证格式保持足够相似，那么您可以尝试编写手动解析器。或者，有很多库可以解析 html。我对 PHP 不太熟悉，无法推荐一个，但我相信谷歌搜索可以让你走得更远。我很幸运约翰·雷西格的 pure javascript HTML parser之前。

归根结底，如果您需要来自未按语义构造的 html 页面的语义信息，那么您可能注定会以编程方式失败，而您最好的选择可能是 mechanical turk .

关于php - 如何从原始 HTML 文件中提取数据？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1821121/

上一篇：c# - 需要在 ASP.NET 网络表单中包装表行和控件

下一篇：javascript - Safari JavaScript 问题

相关文章：

python - 按行位置读取文件

c - 从 GSM-TCAP asn1 文件生成 C 代码时出错

php - 为什么 PHP 被认为是面向对象的？

php - DoExpressCheckoutPayment 中的 PayPal 错误 #10007 权限被拒绝

javascript - 如何在 Angular 网络应用程序上实现 Angular 游览

html - word-wrap 和 word-break 的区别

css - Bootstrap 列定价表 UI 问题

php - 从 DB 提取到 XML

javascript - php echo后显示黑屏

php - 如何使用来自 php 的一些参数运行 perl 脚本