html - unicode 字符是否比简单文本版本更好或更语义化?

标签 html unicode

当我从大多数网站和 pdf 中复制/粘贴文本时,以下字符几乎总是等效的 unicode:

  • 双引号:"is"和”( and )
  • 单引号:'是'和'( and )
  • 省略号:...是... ()

我理解没有 unicode 就无法表示的那些,例如 © 和 ¢,但即使对于那些,我也想知道。

什么时候应该使用这些 un​​icode 等价物?它们比不使用它们更语义化吗?它们是否被设备更好地解释(复制/粘贴/打印)?我总是觉得获取那些引号和省略号字符很烦人,因为在 textmate + 编程中,您不会使用它们。

最佳答案

When should you use these unicode equivalents? Are they more semantic than not using them?

请注意,这些不是“unicode 等价物”。这些字符在 Unicode 以外的许多字符集中可用,并且它们与您建议的替代字符完全不同。

在排版中,单引号和双引号的左右版本是正确的。它们为那些已在打印媒体中使用多年的字符提供了传统外观。省略号字符为省略号提供了正确的间距,这在使用连续的句号字符时不会自然出现。所以使用所有这些的原因是为了让文本正确地呈现给人类读者。

Are they better interpreted by devices (copy/paste/print)?

任何使用任何字符集的系统都应设计为能够正确处理该字符集。如果文本是用 Unicode 编码的,那么任何最近的系统(至少从最近 15 年开始)都应该能够处理它,因为 Unicode 是所有现代系统事实上的标准字符集。

并非所有符合 Unicode 的系统都能正确显示所有字符。这将取决于可用的字体,甚至是使用这些字体的渲染系统。但是任何符合 Unicode 的系统都能够传输未更改的字符(例如在复制和粘贴操作中)。

I always find it annoying getting those quote and ellipsis characters because with textmate + programming, you don't use them.

将英文(或任何语言)文本直接复制到程序中而不必为该文本添加单独的分隔符是不常见的。但是大多数现代编程语言在处理文本后不会有任何困难,一旦它被属性分隔。

任何不能正确处理 Unicode 的系统都应该更新。遗留字符编码在未来将没有立足之地。

关于html - unicode 字符是否比简单文本版本更好或更语义化?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5408968/

相关文章:

javascript - Knockout.js:If 和 foreach 绑定(bind),检查可观察数组上的真值

html - gtrends 错误版本 2 : Error in interest_over_time(widget, comparison_item, tz) : Status code was not 200. 返回状态码:401

r - 对于 unicode 变量字符(希腊语),knitr 生成的源代码中没有定界空格

java - Unicode 代码字符串

language-agnostic - 数字是否在所有文本编码中都按顺序表示?

python - 如何以 python 不将数据解释为 unicode 的方式编写此代码?

css - 将背景放在div之外

html - CSS3 Perspective() 动画在鼠标快速移动时表现得很奇怪

c# - 将呈现的 HTML 写入文件

c++ - 打印撇号 + 宽字符串文字破坏了我的 wofstream (C++)