php - 如何从原始 HTML 文件中提取数据?

标签 php html parsing html-content-extraction

有没有一种方法可以从没有 IDclasses 的非语义编写的原始 html 中提取所需的数据?我的意思是,假设有一个已保存的网页(个人资料)的 html 文件,并且我想提取诸如“爱好”之类的数据。是否可以使用 PHP 来完成此操作?

最佳答案

使用regex !我开玩笑,我开玩笑。如果您知道同一页面的状态,并且保证格式保持足够相似,那么您可以尝试编写手动解析器。或者,有很多库可以解析 html。我对 PHP 不太熟悉,无法推荐一个,但我相信谷歌搜索可以让你走得更远。我很幸运约翰·雷西格的 pure javascript HTML parser之前。

归根结底,如果您需要来自未按语义构造的 html 页面的语义信息,那么您可能注定会以编程方式失败,而您最好的选择可能是 mechanical turk .

关于php - 如何从原始 HTML 文件中提取数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1821121/

相关文章:

python - 按行位置读取文件

c - 从 GSM-TCAP asn1 文件生成 C 代码时出错

php - 为什么 PHP 被认为是面向对象的?

php - DoExpressCheckoutPayment 中的 PayPal 错误 #10007 权限被拒绝

javascript - 如何在 Angular 网络应用程序上实现 Angular 游览

html - word-wrap 和 word-break 的区别

css - Bootstrap 列定价表 UI 问题

php - 从 DB 提取到 XML

javascript - php echo后显示黑屏

php - 如何使用来自 php 的一些参数运行 perl 脚本