我使用 抓取页面努奇 在索引之前,我将内容保存到 中的单独文件中取号 类,所以我不使用 -readseg 从索引文件中取回它们。但是,“ü”和“ç”等特殊字符保存为“?”。
我做了 Nutch Wiki page 中推荐的一切.编辑了 标签的编码属性为UTF-8,它仍然不起作用。我遇到了一些关于在系统文件中更改语言的建议。我在 工作Ubuntu 11.10 .
最佳答案
我能想到的有3种可能性:
我用 Nucth 抓取了包含中文字符的页面,我能够在
readseg
中看到一些乱码。输出(这是使用 nutch 1.0)。后来我安装了一些语言插件并在终端中调整了设置后,我可以看到字符了。所以,我认为#3 不太可能,你必须关注#1 和#2。
关于eclipse - Nutch 无法获取 UTF-8 字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10154532/