介绍
Cloudera 企业级Apache Hadoop 提供商和服务商,提供产品、专业服务、技术支持与培训。是目前在Hadoop生态系统中,规模最大、知名度最高的公司,也是Hadoop生态主要贡献者。
网站:http://zh-cn.cloudera.com/content/www/en-us.html
文档:http://www.cloudera.com/content/www/en-us/documentation.html
中文文档:http://www.cloudera.com/content/www/zh-CN/documentation/enterprise/5-3-x/topics/cdh_intro.html
Cloudera CDH 套件几乎集成了 Hadoop 生态所有组件,虽然版本略有滞后,但解决了最困难的组件间兼容性问题,并补丁。
Cloudera Express 和 Cloudera Enterprise 为 Cloudera 商业产品软件,包括免费版与企业版。提供了一个基于 Web 的用户界面,应用程序,部署、管理、监控的解决方案。
下载:
https://archive.cloudera.com/cdh5/
http://archive.cloudera.com/cm5/
http://archive.cloudera.com/cloudera-labs/CentOS
安装与初始化配置
初始化
安装一些基础的软件和开发包
1 | yum install gcc gcc-c++ autoconf automake make cmake libevent libtool libXaw expat-devel libxml2-devel libevent-devel asciidoc cyrus-sasl-devel cyrus-sasl-gssapi krb5-devel libtidy libxslt-devel python-devel openssl-devel gmp-devel |
检查CPU/内存/磁盘情况
1 | top |
网络,主机名
1 | vi /etc/sysconfig/network |
防火墙,部署阶段关闭软件防火墙:
1 | /etc/init.d/iptables stop |
SELINUX,关闭SELINUX(需要重启):
1 | sestatus |
打开文件数限制,查看并修改
1 | ulimit -a |
主要为TCP一些参数调整,打开文件数限制,swap使用限制
1 | net.unix.max_dgram_qlen = 100 |
压缩解压缩工具,HBase与一些组件需要的解压缩工具:
1 | yum install snappy snappy-devel |
时间同步
1 | cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime |
透明大页面
启用“透明大页面”,它可能会导致重大的性能问题。具体自行查阅相关介绍
1 | echo never > /sys/kernel/mm/redhat_transparent_hugepage/defrag |
Cloudera CDH安装说明三种安装方式
CDH 支持三种安装方式:
- 通过官方提供的 bin 文件,直接运行下载安装
- 使用官方提供的软件包比如yum,rpm手动安装
- 通过源码手动安装
2和1其实差不多,只不过1是无人职守的。2使用yum通过官方源下载安装,但是由于是国外网站,下载经常中断,所以这里针对2稍作修改,是先下载所需软件,然后通过yum本地安装的模式。
上传文件包
1 | cloudera-manager-agent-5.5.1-1.cm551.p0.8.el6.x86_64.rpm |
JDK 安装
1 | yum -y --nogpgcheck localinstall oracle-j2sdk1.7-1.7.0+update67-1.x86_64.rpm |
很多地方说需要设置 CLASSPATH,这里好像并不需要
挂载磁盘
CDH 所有的组件默认会安装在 /opt目录,所以请尽量把大容量磁盘挂在到/opt目录下,同时设置fstab,增加 noatime, nodelalloc
1 | vi /etc/fstab |
安装 Server 与 Agent
1 | yum -y --nogpgcheck localinstall cloudera-manager-daemons*.rpm cloudera-manager-server*.rpm |
1 | [General] |
1 | # 非主控节点不需要启动管理服务 |
安装机制
目前为止如果顺利的话我们已经安装好了它的服务器组件,但是CDH组件还没有安装,CDH组件是通过自带的Web集群配置向导安装的。
这里最大的问题就是会在主节点上下载CDH组件软件包,但软件包有1.4G,所以我们提前下载好,放到所在目录
其他节点在配置的时候也是从主节点复制过去的。
操作步骤:
- 将CHD5相关的包:CDH-5.5.1-1.cdh5.5.1.p0.11-el6.parcel 与CDH-5.1.3-1.cdh5.1.3.p0.12-el6.parcel.sha1,放到主节点的/opt/cloudera/parcel-repo/目录中
- 同时将CDH-5.1.3-1.cdh5.1.3.p0.12-el6.parcel.sha1重命名为CDH-5.1.3-1.cdh5.1.3.p0.12-el6.parcel.sha
- 这点必须注意,否则,系统会重新下载CDH-5.1.3-1.cdh5.1.3.p0.12-el6.parcel文件。集群配置向导
访问 Web GUI
cloudera-scm-server启动以后,正常情况可以在主节点的7180端口访问 Web界面
1 | http://ip:7180/ |
首次安装会进入配置向导,首先选择版本类型,Express,只有这个是免费的。
依次会进行以下步骤:
- 自动安装agent,server
- 部署CDH组件配置角色
- 注意:在CDH组件初始化的时候,需要将所有的组件的数据目录,都修改为/opt目录下
- 安装完成以后,我们还要首先需要调整所有组件的日志目录,修改为磁盘空间大的位置:
- 在集群管理配置->日志配置,修改所有的日志目录为/opt
- 然后留意以下组件的某些相关配置,修改目录为/opt
主要配置项
HDFS 高级
Hbase 配置
Impala 主要、高级
YARN 主要、高级
最后修改所有组件的日志级别,默认为INFO,至少修改为WARN详细配置
HDFS 配置
资源管理
NameNode 的 Java 堆栈大小(字节) 1G
Secondary NameNode 1G
DataNode 的 Java 堆栈大小(字节) 1G
用于缓存的最大内存 1G
Balancer 的 Java 堆栈大小(字节) 1G
HDFS 配置->复制:
dfs.replication 2
HBase 配置
资源管理
HBase Master 的 Java 堆栈大小(字节)1G
HBase RegionServer 的 Java 堆栈大小(字节) 4G
HBase Thrift 的 Java 堆栈大小(字节)2G
YARN 配置
资源管理
NodeManager 的 Java 堆栈大小(字节)1G
ResourceManager 的 Java 堆栈大小(字节)1G
容器内存 1G
容器虚拟 CPU 内核 6
Zookeeper 配置
资源管理
ZooKeeper Server 的 Java 堆栈大小(字节)1G
最大会话超时 1800000
Oozie 配置
资源管理
Oozie Server 的 Java 堆栈大小(字节)
Hive 配置
资源管理
Hive Metastore Server 的 Java 堆栈大小(字节) 1G
测试集群
HDFS 与 YARN 测试
计算圆周率
1 | # 计算单词计数 |
HBase 测试
1 | hbash shell |
如何卸载重新安装
1 | service cloudera-scm-server stop |