eclipse - Nutch 无法获取 UTF-8 字符

标签 eclipse ubuntu character-encoding nutch

我使用 抓取页面努奇 在索引之前，我将内容保存到 中的单独文件中取号 类，所以我不使用 -readseg 从索引文件中取回它们。但是，“ü”和“ç”等特殊字符保存为“?”。

我做了 Nutch Wiki page 中推荐的一切.编辑了标签的编码属性为UTF-8，它仍然不起作用。我遇到了一些关于在系统文件中更改语言的建议。我在 工作Ubuntu 11.10 .

最佳答案

我能想到的有3种可能性:

Nutch 工作正常，您的代码将内容正确写入文件，但您的环境(终端/编辑器)未在输出控制台上正确显示字符。

您写出内容的代码(由 nutch 抓取)没有处理 UTF-8 编码。

Nutch 未正确处理 UTF-8 编码。

我用 Nucth 抓取了包含中文字符的页面，我能够在 readseg 中看到一些乱码。输出(这是使用 nutch 1.0)。后来我安装了一些语言插件并在终端中调整了设置后，我可以看到字符了。所以，我认为#3 不太可能，你必须关注#1 和#2。

关于eclipse - Nutch 无法获取 UTF-8 字符，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10154532/

上一篇：php - 如何增加 apache 进程或并发 php 文件的数量？

下一篇：python - 人机可读——文件中的结构化数据存储

eclipse - 将 eclipse 项目转换为 tomcat servlet 的最佳方法？

Eclipse中的Android配置问题

python - 如何同时为 ROS 环境变量提供两个路径？

java - 写入数据库时的土耳其字符 (postgresql)

Android 导出 : how to create . keystore 文件？

PHP $_POST 在远程提交时为空

ubuntu - 无法在 ubuntu docker 容器上使用 systemd

c++ - 是否可以使用 ICU 以任意编码从字符串中提取 'trim' 尾随空格/制表符而不进行任何转换

php - UTF-8 给了我问号