我正在使用几个 Perl 模块解析 HTML 文档:HTML::TreeBuilder和 HTML::Element .出于某种原因,只要标签的内容只是
,这是意料之中的,它被 HTML::Element 作为我以前从未见过的奇怪字符返回:
alt text http://www.freeimagehosting.net/uploads/2acca201ab.jpg
我不能复制这个字符所以不能谷歌它,在字符映射中找不到它,奇怪的是当我用正则表达式搜索时,\w
找到它。当我将返回的文档转换为 ANSI 或 UTF-8 时,它完全消失了。我在 HTML::Element 文档中也找不到任何关于它的信息。
如何检测此字符并将其替换为更有用的字符,例如 null
以后应该如何处理这样的奇怪角色?
最佳答案
字符是"\xa0"
(即 160),这是
的标准 Unicode 翻译. (也就是说,它是 Unicode 的不间断空格。)您应该能够使用 s/\xa0/ /g
删除它们。如果你喜欢。
关于perl - 为什么这个 A0 字符出现在我的 HTML::Element 输出中?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1449059/