perl - 为什么这个 A0 字符出现在我的 HTML::Element 输出中?

标签 perl encoding

我正在使用几个 Perl 模块解析 HTML 文档:HTML::TreeBuilderHTML::Element .出于某种原因,只要标签的内容只是   ,这是意料之中的,它被 HTML::Element 作为我以前从未见过的奇怪字符返回:

alt text http://www.freeimagehosting.net/uploads/2acca201ab.jpg

我不能复制这个字符所以不能谷歌它,在字符映射中找不到它,奇怪的是当我用正则表达式搜索时,\w找到它。当我将返回的文档转换为 ANSI 或 UTF-8 时,它完全消失了。我在 HTML::Element 文档中也找不到任何关于它的信息。

如何检测此字符并将其替换为更有用的字符,例如 null以后应该如何处理这样的奇怪角色?

最佳答案

字符是"\xa0" (即 160),这是   的标准 Unicode 翻译. (也就是说,它是 Unicode 的不间断空格。)您应该能够使用 s/\xa0/ /g 删除它们。如果你喜欢。

关于perl - 为什么这个 A0 字符出现在我的 HTML::Element 输出中?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1449059/

相关文章:

php - 是否可以在同一页面显示不同编码的数据?

perl - 如何使用 perl 脚本获取在 slurm 上提交的作业的 jobid 编号?

regex - 为 Perl 配置 Notepad++ "Function List"

python - 我如何将阿拉伯语文本输入到我的 python 代码中?

string - 如何在 Java 中执行与编码无关的字符串比较?

eclipse - 字符常量 ⣠无效(从 Netbeans 导入到 Eclipse IDE 后)

regex - 使用 sed 向后搜索和替换

regex - PCRE 负前瞻给出意外匹配

perl - 从实际文件句柄访问 Perl 的空角 "<>"运算符?

encoding - 将 Quercus 数据库连接编码设置为 UTF-8