1、可以使用PuTTY来远程管理我们的云服务器。打开PuTTY后输入云服务器的公网IP,进入管理界面。
安装 Java 运行环境(JRE)或 Java 开发工具包(JDK)。Hadoop 是使用 Java 语言开发的,因此需要安装 Java 运行环境才能运行。配置 Java 环境变量。
labs.xiaonei./apache-mirror/hadoop/core/hadoop-0.1/hadoop-0.tar.gz :labs.xiaonei./apache-mirror/hadoop/ 硬体环境 共有3台机器,均使用的CentOS,Java使用的是jdk0。
——使用docker拉取官方Ubuntu镜像,将单机安装好hadoop,然后做成image,再跑多个容器做集群。但有人建议不要把本地运行的容器转成镜像!——使用阿里hadoop镜像创建hadoop容器,分别创建三个节点master、slaveslave2。
使用环境 操作系统:Ubuntu104 Hadoop版本:0.4 Hadoop官网安装手册 单机安装分为“standalone”和“pseudo-distributed”两种模式,我使用的是伪分布式模式。
对于伪分布式,Hadoop会采用与集群相同的处理方式,即依次序启动文件conf/slaves中记载的主机上的进程,只不过伪分布式中salve为localhost(即为自身),所以对于伪分布式Hadoop,SSH一样是必须的。
在浏览器中输入 http://hadoop102:50070 查看集群是否启动成功。
在这种环境下的合理选择是充分利用已经部署的10GbE设备和Hadoop集群中的 10GbE网卡。在日常的IT环境中构建一个简单的Hadoop集群。可以肯定的是,尽管有很多细节需要微调,但其基础是非常简单的。
前边主要介绍单机版的配置,集群版是在单机版的基础上,主要是配置文件有所不同,后边会有详细说明) 准备工作 1 创建用户 创建用户,并为其添加root权限,经过亲自验证下面这种方法比较好。
这样,节点slave1 slave2就加入了master的swarm网络了。其中运行的命令即为第二步中创建完网络提示的信息。观察上一步我们发现, hadoop-master容器启动在master主机上。我们进入到master。
该文件记录Hadoop集群所有从节点(HDFSde DataNode和YARN的NodeManager所在主机)的主机名,用来配合一键启动脚本启动集群从节点(保证关联节点配置了SSH免密登录)。
啦。这个过程随着节点的增加会耗时更久,因此,若配置的Hadoop节点比较多,则在启动容器后需要测试serf是否发现了所有节点,DNS是否能够解析 所有节点域名。稍等片刻才能启动Hadoop。
直接用机器搭建Hadoop集群是一个相当痛苦的过程,尤其对初学者来说。他们还没开始跑wordcount,可能就被这个问题折腾的体无完肤了。而且也不是每个人都有好几台机器对吧。
这样,节点slave1 slave2就加入了master的swarm网络了。其中运行的命令即为第二步中创建完网络提示的信息。观察上一步我们发现, hadoop-master容器启动在master主机上。我们进入到master。
但优化了镜像大小、构造时间、镜像层数,默认启动3个节点的Hadoop集群,支持任意节点数的Hadoop集群,基于 Ubuntu 。
sudo docker ps 现在的 Docker 网络能够提供 DNS 解析功能,使用如下命令为接下来的 Hadoop 集群单独构建一个虚拟的网络。
于是就引出了本文的主角 Docker Stack ,通过 Docker Stack 我们只需对已有的 docker-compose.yml 配置文件稍加改造就可以完成 Docker 集群环境下的多服务编排。
Hadoop是用Java开发的,Hadoop的编译及MapReduce的运行都需要使用JDK。 Hadoop需要通过SSH来启动salve列表中各台主机的守护进程,因此SSH也是必须安装的,即使是安装伪分布式版本(因为Hadoop并没有区分集群式和伪分布式)。
如果是集群的话,我考虑需要流畅运行的话,2核4G配置是可以满足的。因为这个集群形式,用于适用于物联网、车联网、监控、安全风控、即时通讯、消息存储等行业场景,所以数据量是比较大的,所以配置太低了跑不动,会卡死的。
在阿里云官网租用一个服务器(学生服务有优惠:P),创建时公共镜像选择Ubuntu104,其他设置不变,创建好了以后需要安装各种相关软件才能搭建Hadoop的环境。可以使用PuTTY来远程管理我们的云服务器。