Hadoop学习指南:探索大数据时代的重要组成——Hadoop概述

chatgpt/2023/10/4 7:43:19

前言

在当今大数据时代,处理海量数据成为了一项关键任务。Hadoop作为一种开源的分布式计算框架,为大规模数据处理和存储提供了强大的解决方案。本文将介绍Hadoop的组成和其在大数据处理中的重要作用,让我们一同踏上学习Hadoop的旅程。

Hadoop概述

Hadoop 是什么

1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
2)主要解决,海量数据的存储和海量数据的分析计算问题。
3)广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。
在这里插入图片描述

Hadoop 三大发行版本(了解)

Hadoop 三大发行版本:Apache、Cloudera、Hortonworks。
Apache 版本最原始(最基础)的版本,对于入门学习最好。2006
Cloudera 内部集成了很多大数据框架,对应产品CDH。2008
Hortonworks 文档较好,对应产品HDP。2011
Hortonworks 现在已经被Cloudera 公司收购,推出新的品牌CDP。
在这里插入图片描述

Apache Hadoop

官网地址
下载地址:https://hadoop.apache.org/releases.html

Cloudera Hadoop

官网地址:https://www.cloudera.com/downloads/cdh
下载地址
(1)2008 年成立的Cloudera是最早将Hadoop商用的公司,为合作伙伴提供Hadoop的
商用解决方案,主要是包括支持、咨询服务、培训。
(2)2009 年 Hadoop 的创始人Doug Cutting 也加盟 Cloudera 公司。Cloudera 产品主
要为CDH,Cloudera Manager,Cloudera Support
(3)CDH是Cloudera的Hadoop发行版,完全开源,比Apache Hadoop在兼容性,安
全性,稳定性上有所增强。Cloudera的标价为每年每个节点10000美元。
(4)Cloudera Manager 是集群的软件分发及管理监控平台,可以在几个小时内部署好一
个Hadoop集群,并对集群的节点及服务进行实时监控。

Hortonworks Hadoop

官网地址
下载地址:https://hortonworks.com/downloads/#data-platform

(1)2011年成立的Hortonworks是雅虎与硅谷风投公司Benchmark Capital合资组建。
(2)公司成立之初就吸纳了大约25名至30名专门研究Hadoop的雅虎工程师,上述
工程师均在2005年开始协助雅虎开发Hadoop,贡献了Hadoop80%的代码。
(3)Hortonworks 的主打产品是Hortonworks Data Platform(HDP),也同样是100%开
源的产品,HDP除常见的项目外还包括了Ambari,一款开源的安装和管理系统。
(4)2018年Hortonworks 目前已经被Cloudera公司收购。

Hadoop 优势(4 高)

1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元
素或存储出现故障,也不会导致数据的丢失。
在这里插入图片描述

2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。
在这里插入图片描述

3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处
理速度。
在这里插入图片描述

4)高容错性:能够自动将失败的任务重新分配。
在这里插入图片描述

Hadoop 组成(面试重点)

在这里插入图片描述

HDFS 架构概述

Hadoop Distributed File System,简称 HDFS,是一个分布式文件系统。

  • 1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、
    文件权限),以及每个文件的块列表和块所在的DataNode等
  • 2)DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。
  • 3)Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。

YARN 架构概述

Yet Another Resource Negotiator 简称 YARN ,另一种资源协调者,是 Hadoop 的资源管理器。

  • 1)ResourceManager(RM):整个集群资源(内存、CPU等)的老大
  • 2)NodeManager(NM):单个节点服务器资源老大
  • 3)ApplicationMaster(AM):单个任务运行的老大
  • 4)Container:容器,相当一台独立的服务器,里面封装了任务运行所需要的资源,如内存、CPU、磁盘、网络等

说明1:客户端可以有多个

说明2:集群上可以运行多个ApplicationMaster

说明3:每个NodeManager上可以有多个Container

MapReduce 架构概述

MapReduce 将计算过程分为两个阶段:Map和Reduce
1)Map阶段并行处理输入数据
2)Reduce 阶段对Map结果进行汇总

HDFS、YARN、MapReduce三者关系

在这里插入图片描述

大数据技术生态体系

在这里插入图片描述
图中涉及的技术名词解释如下:
视频、ppt等(非结构化数据)
数据来源层
1)Sqoop:Sqoop 是一款开源的工具,主要用于在Hadoop、Hive与传统的数据库(MySQL)
间进行数据的传递,可以将一个关系型数据库(例如 :MySQL,Oracle 等)中的数据导进
到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
2)Flume:Flume 是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,
Flume 支持在日志系统中定制各类数据发送方,用于收集数据;
3)Kafka:Kafka 是一种高吞吐量的分布式发布订阅消息系统;
4)Spark:Spark 是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数
据进行计算。
5)Flink:Flink 是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。
6)Oozie:Oozie 是一个管理Hadoop作业(job)的工作流程调度管理系统。
7)Hbase:HBase 是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库,
它是一个适合于非结构化数据存储的数据库。
8)Hive:Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张
数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运
行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开
发专门的MapReduce应用,十分适合数据仓库的统计分析。
9)ZooKeeper:它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、
名字服务、分布式同步、组服务等。

推荐系统框架图

在这里插入图片描述

总结:

Hadoop是大数据时代的重要组成部分,其分布式文件系统HDFS和分布式计算框架MapReduce构成了Hadoop的核心。Hadoop的出现为大规模数据处理和存储带来了新的解决方案,其高可扩展性、容错性和成本效益成为吸引用户的重要特点。

今天我们以了解和认识Hadoop为主,充分熟悉它的组成和细节,帮助我们更好的去学习它。

题外话

我整理了一些资源,如果你也对Python和大数据感兴趣,关注下方公众号免费提取资料。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.exyb.cn/news/show-5313513.html

如若内容造成侵权/违法违规/事实不符,请联系郑州代理记账网进行投诉反馈,一经查实,立即删除!

相关文章

每日一题(143. 重排链表)-快慢指针/反转链表

题目 143. 重排链表 题解思路 题目要求将L0 → L1 → … → Ln - 1 → Ln 排序的列表转换为 L0 → Ln → L1 → Ln - 1 → L2 → Ln - 2 → … 首先 利用快慢指针,找到链表的中点位置然后将链表的后半部分进行反转将链表的前半部分以及反转后的后半部分进行依次…

浙政钉的消息分类

浙政钉是浙江省政务服务平台,为浙江省内公务人员提供政务办公、信息发布、业务咨询等服务的移动办公平台。根据功能和内容特点,浙政钉的消息可以分为以下几个分类: 1. 通知公告:政府部门发布的各类通知、公告、文件等信息&#x…

软件测试之性能测试实施流程

软件测试之性能测试实施流程: 1.测试需求分析 测试需求分析是整个性能测试的基础,在这一阶段测试负责人要和项目干系人进行沟通,同时手机各种项目资料,尤其要搞清楚用户对待性能测试的核心需求。 测试需求分析阶段的主要任务是确…

小程序学习(四):WXML模板语法

WXML模板语法-数据绑定 1.数据绑定的基本原则 ①在data中定义数据 ②在WXML中使用数据 2.动态绑定属性 WXML模板语法-事件绑定 3.什么是事件 4.小程序中常用的事件 5.事件对象的属性列表 6.target和currentTarget的区别 7.bindtap的语法格式 8.在事件处理函数中为data中的数据…

基于深度学习的CCPD车牌检测系统(PyTorch+Pyside6+YOLOv5模型)

摘要:基于CCPD数据集的高精度车牌检测系统可用于日常生活中检测与定位车牌目标,利用深度学习算法可实现图片、视频、摄像头等方式的车牌目标检测识别,另外支持结果可视化与图片或视频检测结果的导出。本系统采用YOLOv5目标检测模型训练数据集…

在登录界面中设置登录框、多选项和按钮(HTML和CSS)

登录框(Input框)的样式: /* 设置输入框的宽度和高度 */ input[type"text"], input[type"password"] {width: 200px;height: 30px; }/* 设置输入框的边框样式、颜色和圆角 */ input[type"text"], input[type&q…

nginx配置访问本机文件夹里的静态资源404

在nginx中配置了location访问一直404 location /web/user/ { alias /home/user/wlds/user/;index index.html;try_files $uri $uri/ /index.html 404;} 看日志发现Permission denied 因为是直接使用的yum安装的二进制包nginx,nginx.conf文件首行是user nginx;所以没…

Redis - 缓存的双写一致性

概念: 当修改了数据库的数据也要同时更新缓存的数据,缓存和数据库的数据要保持一致 那为什么会有不一致的情况呢? 如果不追求一致性,正常有两种做法 先修改数据库 后删除旧的缓存先删除旧的缓存 再修改数据库 我们以先删除旧的…
推荐文章