Hadoop+Spark大数据技术 第一章 Hadoop大数据开发环境(第一、二次作业)
Hadoop概述在VirtualBox上安装虚拟机Hadoop安装前的准备工作。

-
第一章 Hadoop大数据开发环境
-
Hadoop概述
-
在VirtualBox上安装虚拟机
-
Hadoop安装前的准备工作
-
第一次作业
-
简述大数据包括的主要内容
-
大数据技术指用于处理大规模、高速增长、多样化数据的一系列工具和技术。
-
包括数据采集与存储、数据处理与分析、数据计算、数据可视化、数据安全、知识图谱、数据挖掘等方面。
-
帮助组织从海量数据中获取有用数据。
-
-
简述大数据的基本特征
-
巨量性
-
随着信息技术的高速发展,数据爆发性增长。
-
-
多样性
-
数据类型繁多。数据分为结构化数据、半结构化数据和非结构化数据。
-
-
高速型
-
处理速度快。
-
-
准确性
-
价值密度低,商业价值高。
-
“大海捞金”
-
-
-
简述Hadoop及其优势
-
Hadoop
-
基于Java语言开发,具有很好的跨平台特性,可以部署在廉价的计算机集群中。
-
核心是分布式文件系统(HDFS)和分布式并行计算模型(MapResuce)。
-
是公认的行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力。
-
-
优势
-
高可靠性
-
采用冗余副本机制,一旦发生故障,冗余机器可提供服务。
-
-
高扩展性
-
在计算机集群众数以千计的节点上分配数据并完成任务。
-
-
高效性
-
Hadoop并行处理Data,在节点间动态移动数据,并保证节点动态负载均衡。
-
-
低成本
-
可以部署在廉价服务器集群上。
-
-
-
-
简述Linux命令的功能
-
sudo
-
以超级用户的权限执行命令
-
-
cd
-
切换目录
-
-
mv
-
移动或重命名文件
-
-
chown
-
修改文件或目录的所有权和所属组
-
-
ls
-
列出目录下的文件和子目录
-
-
mkdir
-
创建新文件夹
-
-
cp
-
复制文件或目录
-
-
cat
-
查看文件内容
-
-
gedit
-
打开文本编辑器(比vim更方便)
-
-
whoami
-
显示当前登录用户的用户名
-
-
df
-
显示磁盘空间使用情况
-
-
ping
-
向目标主机发送网络Data包并接受响应(测试网络连接)
-
-
-
简述如何安装VitualBox虚拟机的设备增强功能及作用
-
关于增强功能的介绍(部分功能需要额外配置)
-
自动适配分辨率。
-
开启了无缝模式:虚拟系统中打开的应用,将出现在原生系统的任务栏,可以在原生系统中使用。
-
增加粘贴板共享功能。
-
增加共享文件夹功能。
-
增加与主机之间拖拽文件功能。
-
-
-
-
Hadoop的安装与配置
-
单机模式
-
Hadoop 默认的运行模式为非分布式模式(即单机模式),Hadoop 解压后无须进行其他配置就可运行单机模式,非分布式表示单Java 进程。
-
Hadoop单机模式只在一台机器上运行,存储采用本地文件系统,而不是HDFS(分布式文件系统)。
-
无须任何守护进程(daemon),所有的应用程序都在单个JVM(Java virtual machine,Java虚拟机)上执行。
-
在单机模式下调试MapReduce 程序非常高效方便,这种模式适用于开发阶段。
-
-
伪分布式模式
-
Hadoop可以在单个节点(一台机器)上以伪分布式模式运行。
-
读取的是HDFS的文件。
-
同一个节点既作为NameNode、又作为DataNode。守护进程都在同一台机器上运行,是相互独立的Java进程。
-
-
分布式模式
-
一个虚拟机作为Master (主)节点,另一个虚拟机作为Slave1(从)节点。由3个及以上节点构建分布式集群,也可以采用类似的方法完成安装部署。
-
Hadoop的守护进程运行在一个集群上。Hadoop的守护进程运行在由多台主机搭建的集群上,是真正的生产环境。
-
在所有的主机上安装JDK和Hadoop,组成相互连通的网络。
-
-
-
第二次作业
-
简述Hadoop三种运行模式及其区别。
-
简述Hadoop集群安装配置的基本步骤。
-
(1)在Master 节点上创建hadoop用户、安装SSH、安装Java环境。
-
(2)在Master 节点上安装Hadoop,并完成配置。
-
(3)在Slavel节点上创建hadoop用户、安装SSH、安装Java环境。
-
(4)将Master 节点上的/usr/local/hadoop目录复制到Slave1节点上。
-
(5)在Master 节点上启动Hadoop。
-
-
简述在Master节点上启动Hadoop集群的命令及其功能。启动成功后,可以用jps命令在Master节点上查看到哪些进程。
-
start-dfs.sh
-
用于启动Hadoop分布式文件系统(HDFS)的各个组件,包括NameNode、DataNode等。
-
在启动后,HDFS将会在集群中的各个节点上启动对应的服务,用于存储和管理数据。
-
-
start-yarn.sh
-
该命令用于启动Hadoop的资源管理框架YARN,包括ResourceManager和NodeManager。
-
YARN负责集群资源的统一管理和作业调度,以及各个作业的执行。
-
-
mr-jobhistory-daemon.sh start historyserver
-
该命令用于启动Hadoop的历史服务器(JobHistoryServer)。
-
历史服务器负责记录和管理已完成作业的信息和日志,供用户查询和分析使用。
-
-
jps命令用于查看各个节点启动的进程。如果在Master节点上可以看到DataNode、NameNode、 ResourceManager、SecondaryNameNode、 JobHistoryServer 和NodeManager进程、就表示主节点进程启动成功
-
NameNode:HDFS的主节点,负责管理文件系统的命名空间和数据块映射信息。
-
DataNode:HDFS的数据节点,负责存储实际的数据块。
-
ResourceManager:YARN的资源管理器,负责集群资源的统一管理和作业调度。
-
SecondaryNameNode:HDFS的辅助节点,负责定期合并编辑日志以及检查点操作,用于提高NameNode的稳定性。
-
JobHistoryServer:历史服务器,负责记录和管理已完成作业的信息和日志。
-
NodeManager:YARN的节点管理器,负责每个节点上的资源管理和作业执行。
-
-
-
-
更多推荐




所有评论(0)