Hadoop添加节点的方法
1.将cluster停止。
2. 在新加的节点上配置好环境,包括ssh,jdk,并将其它datanode上的hadoop和hbase文件夹全部copy过去;
3. 将新的datanode的host加到集群namenode及其他datanode中去;
4. 将新的datanode的host加到master的conf/slaves中;
5. 再次启动cluster,在cluster中看到新的datanode节点;
5. 运行bin/start-balancer.sh,平衡数据。
备注:
1.balance是为了平衡数据,如果不执行该命令,cluster将会把新的数据都存放在新的datanode上,这样,造成分布不平衡,影响mr的工作效率。
2. start-balancer.sh和调用bin/shadoop balancer命令相似,也可加参数 -threshold 5(
threshold 是平衡阈值,默认是10%,值越低各节点越平衡,但消耗时间也更长)。
3. balancer也可以在有mr job的cluster上运行,默认dfs.balance.bandwidthPerSec很低,为1M/s。在没有mr job时,可以提高该设置加快负载均衡时间。
4.如果cluster设置的副本数不为3(默认),需要先运行命令hadoop fs –setrep [-R] <path>
进行设置一个文件的副本系数。如果默认为3则不必。如果执行完平衡以后才改变副本数,会将新加入到新节点上的所有数据删除。
5.dfs.replication设置的副本系数只在文件系统写入时有效,并不影响在新添加节点时,平衡时的副本数
由于还有hbase数据库,因此,在运行完平衡以后,将hbase下的.META.文件删除(防止出错),启动hbase,执行hbase org.jruby.Main add_table /表名 来进行hbase表恢复
分享到:
相关推荐
hadoop集群配置三节点(超详细)
Centos7.0系统下配置Hadoop集群(以3节点为例)超详细过程
搭建高可用的Hadoop集群,基于NFS共享磁盘的namenode配置,使用zookeeper进行主节点推举
教程:在linux虚拟机下(centos),通过docker容器,部署hadoop集群。一个master节点和三个slave节点。
利用ansible 自动 安装Hadoop 集群
非常详细的hadoop集群搭建教程,包含SSH免密码登录,基本上按照教程上一步一步操作就能搭建成功,非常适合大数据初学者使用
对于企业,如果要部署由成千上万的节点组成的Hadoop集群,手工方式部署显然不符合实际。 而由Hortonworks贡献给Apache开源社区的Ambari则提供了搭建整个Hadoop生态的一站式服务。这款软件具有集群自动化安装、中心化...
Hadoop三节点集群安装 使用VMare 虚拟机创建三台CentOS7Linux机器
使用Ansible的Hadoop多节点集群 该存储库包含Ansible Playbook和角色,以通过AWS EC2实例部署Hadoop多节点集群。 角色扮演- 角色名称 角色描述 awsInfra4Hadoop 为Hadoop MultiNode Cluster创建AWS基础架构 ...
图文并茂,step by step,详细说明Hadoop集群(zookeeper框架下)增加服役节点操作步骤。 1. 现有集群环境情况 2. 准备工作 2.1 修改主机名 2.2 配置ssh免密登录 2.3 jdk安装 2.4 hadoop安装 2.5 关闭待新增节点的...
多节点下Hadoop集群安装 参照上一篇:单节点下安装hadoop伪分布式集群 安装完后,讲解安装hadoop集群
史上最全 多节点 hadoop 开发环境搭建详解
基于多元线性回归模型的Hadoop集群节点性能计算方法.pdf
由于工作需要,最近一段时间开始接触学习 Hadoop 相关的东西,目前公司的实时任务和离线任务都跑在一个 Hadoop 集群,离线 任务的特点就是每天定时跑,任务跑完了资源就空闲了,为了合理的利用资源,我们打算在搭一...
本次hadoop集群采用3台虚拟机协同完成,虚拟机采用CentOS6.7版本的镜像,hadoop的Cloudera的版本采用的5.13版本。更详细的需求配置以及虚拟机设置,网络配置,节点服务配置等信息请下载文档进行查看。
hadoop集群只有一个节点,因此hdfs的块复制将限制为单个副本。 在单个节点上运行NameNode、DataNode、JobTracker、TaskTracker、SeconderyNameNode 这5个进程。 完全分布模式 在多个节点上运行。 使用分布式文件系统...
要想深入的学习Hadoop数据分析技术,首要的任务是必须要将hadoop集群环境搭建起来,可以将hadoop简化地想象成一个小软件,通过在各个物理节点上安装这个小软件,然后将其运行起来,就是一个hadoop分布式集群了。...
部署Hadoop3.0高性能集群,Hadoop完全分布式模式: Hadoop的守护进程分别运行在由多个主机搭建的集群上,不同 节点担任不同的角色,在实际工作应用开发中,通常使用该...下面,阐述完全分布模式Hadoop集群的安装与配置方法。