所以我还在研究这个解析器。今天我发现了一个带有标签 <st1:place w:st="on">
的文档Google 告诉我这是一个 Microsoft Office 智能标签。
我想摆脱这些东西,但找不到它们是什么或它们有多少的列表?
如果他们都遵循<...:...>
使用正则表达式可以轻松删除的模式。
该文档没有文档类型和.jsp 扩展名,但所有内容都在两个<html>
之间。标签,无论野兽多么不标准,我仍然需要解析它。
好吧,这实际上不是什么大问题,但它会影响我的格式并让我感到烦恼。
最佳答案
这个正则表达式应该可以解决问题:
/<[:alnum:]+:[\s\S]*>/
它会在任何以 < 开头的标签上触发,后跟字母数字模式和“:”冒号。
或者:
/<\s*[:alnum:]+:[\s\S]*>/
将允许更宽松的标签格式化程序(开头 < 和命名空间之间的空格)
关于php - 什么是智能标签以及如何从 html 中删除它们?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4929705/