eclipse - Nutch 无法获取 UTF-8 字符

标签 eclipse ubuntu character-encoding nutch

我使用 抓取页面努奇 在索引之前,我将内容保存到 中的单独文件中取号 类,所以我不使用 -readseg 从索引文件中取回它们。但是,“ü”和“ç”等特殊字符保存为“?”。

我做了 Nutch Wiki page 中推荐的一切.编辑了 标签的编码属性为UTF-8,它仍然不起作用。我遇到了一些关于在系统文件中更改语言的建议。我在 工作Ubuntu 11.10 .

最佳答案

我能想到的有3种可能性:

  • Nutch 工作正常,您的代码将内容正确写入文件,但您的环境(终端/编辑器)未在输出控制台上正确显示字符。
  • 您写出内容的代码(由 nutch 抓取)没有处理 UTF-8 编码。
  • Nutch 未正确处理 UTF-8 编码。

  • 我用 Nucth 抓取了包含中文字符的页面,我能够在 readseg 中看到一些乱码。输出(这是使用 nutch 1.0)。后来我安装了一些语言插件并在终端中调整了设置后,我可以看到字符了。所以,我认为#3 不太可能,你必须关注#1 和#2。

    关于eclipse - Nutch 无法获取 UTF-8 字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10154532/

    相关文章:

    eclipse - Ubuntu Eclipse Tomcat 无法加载 Tomcat 服务器配置

    eclipse - 将 eclipse 项目转换为 tomcat servlet 的最佳方法?

    Eclipse中的Android配置问题

    python - 如何同时为 ROS 环境变量提供两个路径?

    java - 写入数据库时​​的土耳其字符 (postgresql)

    Android 导出 : how to create . keystore 文件?

    PHP $_POST 在远程提交时为空

    ubuntu - 无法在 ubuntu docker 容器上使用 systemd

    c++ - 是否可以使用 ICU 以任意编码从字符串中提取 'trim' 尾随空格/制表符而不进行任何转换

    php - UTF-8 给了我问号