ZKX's LAB

大数据高级开发笔记----第一节课 Hadoop简介

2020-12-16新闻12

一、hadoop的发展历史

网上资料很多,这里就不浪费时间介绍了,感兴趣的自己找“度娘”。

注意一点: 狭义上来说,hadoop就是单独指代hadoop这个软件 , 广义上来说,hadoop指代大数据的一个生态圈,包括很多其他的软件

在下面的章节中,没有特殊说明,我们都是指的是hadoop这个软件。

hadoop生态大致包括以下技术:

二、hadoop的版本介绍

0.x系列版本:hadoop当中最早的一个开源版本,在此基础上演变而来的1.x以及2.x的版本

1.x版本系列:hadoop版本当中的第二代开源版本,主要修复0.x版本的一些bug等

2.x版本系列:架构产生重大变化,引入了yarn平台等许多新特性,也是现在生产环境当中使用最多的版本

3.x版本系列:在2.x版本的基础上,引入了一些hdfs的新特性等,且已经发型了稳定版本,未来公司的使用趋势

注意:我们以后的课程都是以hadoop3.x版本为例,有些地方的配置及概念是有别于2.x的。三、 hadoop生产环境版本选择

Hadoop三大发行版本:Apache、Cloudera、Hortonworks。

Apache版本最原始(最基础)的版本,对于入门学习最好。

Cloudera在大型互联网企业中用的较多。

Hortonworks文档较好。

注:Cloudera和Hortonworks你可以理解为Linux和Centos的关系。四、hadoop的架构模块介绍

Hadoop框架组成

Hadoop由三个模块组成:分布式存储HDFS、分布式计算MapReduce、资源调度引擎Yarn

Hadoop架构体系

HDFS模块:namenode:主节点,主要负责HDFS集群的管理以及元数据信息管理

datanode:从节点,主要负责存储用户数据secondaryNameNode:辅助namenode管理元数据信息,以及元数据信息的冷备份

Yarn模块:ResourceManager:主节点,主要负责资源分配NodeManager:从节点,主要负责执行任务

#技术编程

随机阅读

qrcode
访问手机版