java - 使用 Hbase 运行 Hadoop 的平台

标签 java hadoop

我们刚刚开始使用 Hadoop 和 Hbase 的项目,但对使用哪个平台感到困惑。看起来 Hadoop 实际上是为基于 UNIX 的系统设计的,但似乎也可以在 cygwin 的帮助下在 Windows 中运行。

如果选择 Windows,我们是否必须面对任何具体问题,或者它是否能与任何基于 Unix 的系统一样良好地运行。我们的项目基于整理网络爬虫创建的数据并使用映射/归约技术创建一个简单的搜索界面。

如果有经验的人可以列出使用基于 Windows/Unix(如 Ubuntu)的差异。

ps:我们在windows中工作更舒服

最佳答案

到目前为止,不建议在 Windows 机器上的生产中使用 Hadoop。 HortonWorks 和 Microsoft 正在致力于将 Hadoop 迁移到 Windows Server 和 Azure。目前位于 developer preview它可能需要一段时间才能稳定并开放供公众使用。出于开发目的,Windows 上的 Hadoop 应该没问题,我不确定,但某些 Hadoop 功能可能无法使用。这是tutorial用于在 Windows 上设置 Hadoop。

ps:we are more comfortable working in windows

正如评论中提到的,Linux 上有几个适用于 Hadoop 的虚拟机,可以安装在 VM Player 或 VirtualBox 虚拟机管理程序上。这是tutorial在 VirtualBox 上开始使用 Cloudera CDH。 Cloudera CDH VM 已安装、配置并良好集成和测试了几个 Apache 框架(Hadoop、Pig、Hive、Sqoop、HBase 等)。另一种选择是使用 Amazon EMR轻松入门。

顺便说一句,我还建议熟悉 Linux 环境并习惯它。 Linux 比其他操作系统有趣得多。有很多关于如何开始的教程/文章,包括 this .

关于java - 使用 Hbase 运行 Hadoop 的平台,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8945989/

相关文章:

java - 矩阵旋转

java - 如果我关闭 stardog 连接池中的连接会发生什么

java - preparedStatement.setString(1 ,"null"),被解释为 null 而不是字符串(在preparedStatement.addBatch()之后)

java - 填写缺失数据的简单方法

hadoop - 如何在非 Java 客户端中从 HDFS 读取文件

java - 接收比较器类类型

java - 为什么我们不能在 Map Reduce 中使用 Java 原始数据类型?

hadoop - Hadoop 中的负载均衡

java - 运行hadoop时出现Classnotfound异常

hadoop - 完全取消默认输出目录 - MapReduce