java - 如何转换网页中的奇怪字符?

标签 java character-encoding

在网页中,是“Why don't we”,如下:

enter image description here

但是当我解析网页并将其保存到文本文件时,在eclipse下就变成了这样:

我们为什么不

有关我的实现的更多信息:

网页为:utf-8 我使用jSoup来解析,文件保存为txt。 我使用 FileWriter f = new FileWriter() 写入文件。

更新: 我实际上是通过将eclipse的编码更改为utf-8来解决eclipse中的显示问题的。

最佳答案

FileWriter 是一个实用程序类,它使用默认的当前平台编码。这是不可移植的,而且可能是不正确的。

BufferedWriter f = new BufferedWriter(New OutputStreamWriter(
        new FileOutputStream(file), StandardCharsets.UTF_9));
f,Write("\uFEFF"); // Redundant BOM character might be written to be sure 
                   // the text is read as UTF-8
...

关于java - 如何转换网页中的奇怪字符?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23551530/

相关文章:

java - 是否有更现代的 OO 版本的 "Let' s Build a Compiler”?

java - 在 Struts 2 的 Action 中保持代码干燥

python - 将 utf-8 写入 Excel CSV

character-encoding - 当 PuTTY 终端设置为使用 UTF-8 时,gdb --tui 无法使用正确的线条显示边框

vim - Vim 中的中欧字符并打印(PDF)它们

python - 仅包含 ASCII 字符的 UNICODE 字符串是否总是等于 ASCII 字符串?

java - 线程行为

java - Maven:在属性中设置代码变量

java - 如何将信息放入 Tapestry5 的输出流中?

character-encoding - 是否有 ASCII 扩展编码列表?