php - tidy - 如何从 HTML 中删除重复的 ID

标签 php html parsing tidy

我有一个 HTML 需要被 DOMDocument::loadHtml($html) 解析,但它给了我一个错误:

DOMDocument::loadHTML(): ID 'my id' already defined in Entity

我无法控制 $html,但我可以在其上使用整洁的库(或其他东西,想法?)并制作可解析的 HTML。 但是我没有在 tidy 的配置中找到一个选项来删除 tidy 配置中的重复 ID。我的代码是这样的:

$tidy = new tidy();
$tidy->parseString($this->getPageContents());
$html = new DOMDocument();
$html->loadHTML($tidy); // error here

谢谢

最佳答案

尝试

$html->loadXML($tidy);

并且在解析为 html dom 之前使用 xml dom 重写 id

关于php - tidy - 如何从 HTML 中删除重复的 ID,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6022770/

相关文章:

php - "Cluster analysis"与 MySQL

php - MySQL 表中的 "Use PDO"。这是黑客攻击吗?

mysql - PHP Mysql - 使用 CONCAT 时非法混合排序规则

javascript - 如何隐藏可打印版本的 TidioChat 侧边栏?

html - 样式不会被覆盖

c - javacc C 语法和 C "Bit fields";解析异常

php - 我准备的 pdo 插入语句出错

html - 在 <button> 元素中嵌入图像

javascript - Internet Explorer 上的 JSON 解析错误

python - 从文件中删除字符串和字符串之前的所有行