大数据篇 十月 25, 2017

Hadoop 的第一天

文章字数 1.5k 阅读约需 1 mins. 阅读次数

前言

第一天学习 Hadoop 看了不少资料和文档,在这里想总结一下这一天的所学

感受

以前一直以为 JavaWeb 和大数据这是2条路子,学了大数据之后就要放下 JavaWeb,就像在项目中使用 Struts2 和 SpringMVC,2者只能选一个使用,在看了一些资料之后,我发现我的认识错了,其实 JavaWeb 和大数据技术就像 SpringMVC 和Spring Boot
2者是并行不悖的。大数据技术囊括很多技术,JavaWeb只是其中的一部分,要学习大数据需要学习的技术还有很多。

总结

Hadoop是干什么的

一句话概括:适合大数据的分布式存储与计算平台

Hadoop的2个重要部分

  • HDFS : 分布式文件系统
  • MapReduce : 并行计算框架

HDFS

主从结构:

主节点: 只有一个 namedode

从节点: 多个 datanode

namenode:

负责接收用户请求

维护文件系统的目录结构

管理文件与 block 之间的关系,block 与 datanode 之间的关系

datanode:

存储文件

文件被分成若干 Block 存储在磁盘上

为保证数据安全,文件会被备份成多个副本

MapReduce

主从结构:

主节点: 只有一个 JobTracker

从节点: 有多个 TaskTracker

JobTracker:

接受用户提交的任务

把计算任务分配给 TaskTracker 执行

监控 TaskTracker 的执行情况

TaskTracker:

执行 JobTracker 分配的任务
0%