在线咨询
课程概述
课程涵盖技能
课程亮点
职场助力
购课选项
预修课程
课程目录
行业项目
认证证书
学员反馈
立即购买

课程概述

大数据Hadoop认证培训提供了使用Hadoop和Spark大数据框架的深入知识,为您成为大数据工程师做好准备。在Hadoop的实操课程中,您可以通过集成实验室执行基于现实生活的真实项目。

课程涵盖技能

  • 数据处理
  • 功能性编程
  • Apache Spark
  • 平行处理
  • Spark RDD优化技术
  • Spark SQL

课程亮点

  • 22小时的在线自定进度学习
  • 52小时的教师指导培训
  • 4个基于行业的课程结束项目
  • 带有集成实验室的互动学习
  • 课程内容与Cloudera CCA175认证考试保持一致

职场助力

提高大数据和分析领域技能是一个明智的职业决定。2019年全球HADOOP-AS-SERVICE(HAAS)市值约为73.5亿美元。该市值预计将以39.3%的年复合增长率增长,到2026年将达到约748.4亿美元。

名称
年薪
招聘单位
大数据架构师
大数据工程师
大数据开发员
$93K
最小
$129K
平均值
$165K
最大
$81K
最小
$120.5K
平均值
$160K
最大
$58K
最小
$93K
平均值
$128K
最大

购课选项

单一课程

个人提升

  • 终身访问自定进度在线学习课程
  • 实验室现场技能操作演示
  • 预约顶级讲师提供的在线直播培训课程
  • 用于巩固所学技能的现实行业项目
  • 自我评估模拟试卷
  • 24x7帮助与支持
simplilearn官网价 查看
课程原价 ¥ 5034.00
立即购买
实惠套餐

个人提升

  • 单一课程中的所有特权
  • 购买课程组合,每门课程均享受优惠折扣

    购买2门课程包享受7.5折优惠

    购买3门课程包享受6.5折优惠

    购买4门课程包享受5.5折优惠

    购买5门及以上课程包享受4.5折优惠

    *加购课程查看最终实际价格

自由组合自己的课程 >
我的课程
详情
折扣优惠 -0
最终价格 0
立即购买
定制套餐

企业培训

  • 根据企业需求定制套餐
  • 在线自定进度学习与直播培训课程相结合
  • 灵活的定价方案
  • 企业级学习管理系统
  • 团队与个人学习管理界面
  • 24x7帮助与支持
联系我们

预修课程

  • 核心Java
  • SQL

课程内容

第1课 课程介绍
  • 1.1 课程介绍

  • 1.2 进入实践实验室

第2课 大数据和Hadoop简介
  • 2.1 大数据和Hadoop简介

  • 2.2 大数据简介

  • 2.3 大数据分析

  • 2.4 什么是大数据

  • 2.5 大数据的四个特点

  • 2.6 案例研究 : 苏格兰皇家银行

  • 2.7 传统系统的挑战

  • 2.8 分布式系统

  • 2.9 Hadoop简介

  • 2.10 Hadoop生态系统的组成部分 1

  • 2.11 Hadoop生态系统的组成部分 2

  • 2.12 Hadoop生态系统的组成部分 3

  • 2.13 商业Hadoop分布

  • 2.14 演示 :Simplilearn Cloudlab的演练

  • 2.15 主要收获

  • 知识检查

第3课 Hadoop架构、分布式存储(HDFS)和YARN
  • 3.1 Hadoop架构分布式存储(HDFS)和YARN

  • 3.2 什么是HDFS

  • 3.3 对HDFS的需求

  • 3.4 普通文件系统与HDFS

  • 3.5 HDFS的特点

  • 3.6 HDFS架构和组件

  • 3.7 高可用性集群的实现

  • 3.8 HDFS组件文件系统命名空间02:40

  • 3.9 数据块分割

  • 3.10 数据复制拓扑结构

  • 3.11 HDFS命令行

  • 3.12 演示: 常用HDFS命令 HDFS命令行

  • 3.13 YARN介绍

  • 3.14 YARN使用案例

  • 3.15 YARN及其架构

  • 3.16 资源管理器

  • 3.17 资源管理器如何运作

  • 3.18 应用主控

  • 3.19 YARN如何运行一个应用程序

  • 3.20 YARN开发者的工具

  • 3.21 演示 : 集群演练 1

  • 3.22 演示 : 集群演练 2

  • 3.23 主要收获

  • 知识检查

  • Hadoop架构,分布式存储(HDFS)和YARN

第4课 大数据系统的数据导入和ETL
  • 4.1 数据导入到大数据系统和ETL

  • 4.2 数据摄取概述

  • 4.3 数据摄取

  • 4.4 Apache Sqoop

  • 4.5 Sqoop和它的用途

  • 4.6 Sqoop处理

  • 4.7 Sqoop导入过程 辅助实践:导入到Sqoop中

  • 4.8 Sqoop连接器

  • 4.9 演示 : 从MySQL导入和导出数据到HDFS Apache Sqoop

  • 4.9 Apache Flume

  • 4.10 Flume模型

  • 4.11 Flume的可扩展性

  • 4.12 Flume架构中的组件

  • 4.13 配置Flume组件

  • 4.14 Apache Kafka

  • 4.15 演示 : 摄取Twitter数据

  • 4.15 使用Kafka聚合用户活动

  • 4.16 Kafka数据模型

  • 4.17 分区

  • 4.18 Apache Kafka架构

  • 4.19 生产者端API实例

  • 4.20 消费者端API

  • 4.21 演示 : 设置Kafka集群

  • 4.21 消费者端API示例

  • 4.22 Kafka连接

  • 4.23 主要收获

  • 4.24 演示 :使用生产者和消费者创建样本Kafka数据管道

  • 知识检查

  • 大数据系统中的数据摄取和ETL

第5课分布式处理--MapReduce框架和Pig
  • 5.1 分布式处理的MapReduce框架和Pig

  • 5.2 MapReduce的分布式处理

  • 5.3 字数统计实例

  • 5.4 地图执行阶段

  • 5.5 地图执行的分布式双节点环境

  • 5.6 MapReduce工作

  • 5.7 Hadoop MapReduce作业的工作互动

  • 5.8 为MapReduce开发设置环境

  • 5.9 类的设置

  • 5.10 创建一个新项目

  • 5.11 高级MapReduce

  • 5.12 Hadoop中的数据类型

  • 5.13 MapReduce中的输出格式

  • 5.14 使用分布式缓存

  • 5.15 MapReduce中的连接

  • 5.16 复制的连接

  • 5.17 Pig简介

  • 5.18 Pig的组件

  • 5.19 Pig数据模型

  • 5.20 Pig的交互模式

  • 5.21 Pig操作

  • 5.22 开发人员执行的各种关系

  • 5.23 演示 :使用MapReduce分析网络日志数据

  • 5.24 演示 :使用PIG分析销售数据和解决KPI问题02:46 Apache Pig

  • 5.25 演示 :Wordcount

  • 5.26 主要收获 知识检查 分布式处理--MapReduce框架和Pig

第6课 Apache Hive
  • 6.1 Apache Hive

  • 6.2 Hive SQL over Hadoop MapReduce

  • 6.3 Hive架构

  • 6.4 运行Hive查询的接口

  • 6.5 从命令行运行Beeline

  • 6.6 Hive元存储

  • 6.7 Hive DDL和DML

  • 6.8 创建新表

  • 6.9 数据类型

  • 6.10 数据的验证

  • 6.11 文件格式类型

  • 6.12 数据序列化

  • 6.13 Hive表和Avro模式

  • 6.14 Hive优化分区Bucketing和Sampling

  • 6.15 非分区表

  • 6.16 数据插入

  • 6.17 Hive中的动态分区

  • 6.18 桶状结构

  • 6.19 桶的作用是什么

  • 6.20 Hive分析UDF和UDAF

  • 辅助实践:同步化

  • 6.21 Hive的其他功能

  • 6.22 演示 :实时分析和数据过滤

  • 6.23 演示 :真实世界的问题

  • 6.24 演示 :使用Hive的数据表示和导入

  • 6.25 主要收获 知识检查 Apache Hive

第7课 NoSQL数据库 - HBase
  • 7.1 NoSQL数据库 HBase

  • 7.2 NoSQL简介 演示:Yarn Tuning

  • 7.3 HBase概述

  • 7.4 HBase架构

  • 7.5 数据模型

  • 7.6 连接到HBase HBase外壳

  • 7 .7 主要收获 知识检查 NoSQL数据库--HBase

第8课 函数式编程和Scala的基础知识
  • 8.1 函数式编程和Scala的基础知识

  • 8.2 Scala简介

  • 8.3 演示 :Scala 安装

  • 8.3 功能性编程

  • 8.4 用Scala编程 演示 :基本字数和算术运算符 演示 :逻辑运算符

  • 8.5 Scala中的类型推理类对象和函数 演示 :类型推断函数匿名函数和类

  • 8.6 集合

  • 8.7 集合的类型 演示:集合的五种类型 演示:对列表的操作

  • 8.8 Scala REPL 辅助实践 :练习Scala REPL 演示 :Scala REPL的特点

  • 8.9 主要收获 知识检查 功能性编程和Scala的基础知识

第9课 Apache Spark下一代大数据框架
  • 9.1 Apache Spark下一代大数据框架

  • 9.2 Spark的历史

  • 9.3 Hadoop中MapReduce的局限性

  • 9.4 Apache Spark简介

  • 9.5 Spark的组件

  • 9.6 内存处理的应用

  • 9.7 Hadoop生态系统与Spark

  • 9.8 Spark的优势

  • 9.9 Spark架构

  • 9.10 真实世界中的Spark集群

  • 9.11 演示 :在Spark Shell中运行Scala程序

  • 9.12 演示:在IDE中设置执行环境

  • 9.13 演示:Spark网络UI

  • 9.14 主要收获 知识查询 掌握Apache Spark下一代的大数据框架

第10课 Spark核心处理RDD
  • 10.1 处理RDD

  • 10.1 Spark RDD简介

  • 10.2 Spark中的RDD

  • 10.3 创建Spark RDD

  • 10.4 配对RDD

  • 10.5 RDD操作

  • 10.6 演示 :使用Scala实例进行Spark转换的详细探索

  • 10.7 演示 :使用Scala深入探索Spark Action

  • 10.8 缓存和持久化

  • 10.9 存储级别

  • 10.10 线程和DAG

  • 10.11 DAG的必要性

  • 10.12 Spark中的调试

  • 10.13 Spark中的分区

  • 10.14 Spark中的调度

  • 10.15 Spark中的洗牌

  • 10.16 排序洗牌

  • 10.17 用RDD对数据进行聚合

  • 10.18 演示:将数据写回到 HDFS 和 Spark UI 的 Spark 应用程序 D

  • 10.19 演示:改变Spark应用程序的参数

  • 10.20 演示:处理不同的文件格式

  • 10.21 演示:Spark的RDD与真实世界的应用

  • 10.22 演示:优化Spark作业 辅助实践 :更改Spark应用程序参数

  • 10.23 主要收获 知识检查 Spark核心处理RD

第11课 Spark SQL - 处理数据帧
  • 11.1 Spark SQL处理数据帧

  • 11.2 Spark SQL简介

  • 11.3 Spark SQL架构

  • 11.4 数据框架

  • 11.5 演示 :处理各种数据格式

  • 11.6 演示 :实现各种数据框架操作

  • 11.7 演示:UDF和UDAF

  • 11.8 与RDDs交互操作

  • 11.9 演示:使用SQL查询处理DataFrame

  • 11.10 RDD vs DataFrame vs Dataset 处理数据框架

  • 11.11 主要收获 知识检查 Spark SQL - 处理数据框架

第12课 Spark MLLib - 用Spark对大数据进行建模
  • 12.1 Spark MLLib 用Spark对大数据进行建模

  • 12.2 数据科学家和数据分析师在大数据中的作用

  • 12.3 Spark中的分析

  • 12.4 机器学习

  • 12.5 监督学习

  • 12.6 演示 :线性SVM的分类

  • 12.7 演示 :真实世界案例分析之线性回归

  • 12.8 无监督学习

  • 12.9 演示 :无监督聚类的K-Means 辅助实践 :无监督聚类的K-means

  • 12.10 强化学习

  • 12.11 半监督学习

  • 12.12 MLlib概述

  • 12.13 MLlib管线

  • 12.14 主要收获

  • 知识检查

  • Spark MLLib--用Spark对大数据进行建模

第13课 流处理框架和Spark Streaming
  • 13.1 流处理框架和Spark Streaming 13.1 流媒体概述

  • 13.2 大数据的实时处理

  • 13.3 数据处理架构

  • 13.4 演示 :实时数据处理

  • 13.5 Spark流媒体

  • 13.6 演示:编写Spark Streaming应用程序

  • 13.7 DStreams简介

  • 13.8 DStreams的转换

  • 13.9 使用ForeachRDD的设计模式

  • 13.10 状态操作

  • 13.11 窗口操作

  • 13.12 连接操作流-数据集连接

  • 13.13 演示:实时数据处理的窗口化

  • 13.14 流媒体源

  • 13.15 演示:处理Twitter的流数据

  • 13.16 结构化的Spark Streaming

  • 13.17 银行交易案例

  • 13.18 结构化流媒体架构模型及其组件

  • 13.19 输出接收器

  • 13.20 结构化流媒体API

  • 13.21 在结构化流中构建列

  • 13.22 对事件时间的窗口化操作

  • 13.23 使用案例

  • 13.24 演示 :流媒体管线

  • 13.25 主要收获 知识查询 流处理框架和Spark Streaming

第14课 Spark GraphX
  • 14.1 Spark GraphX

  • 14.2 图形简介

  • 14.3 Spark中的Graphx

  • 14.4 图形运算符

  • 14.5 连接操作符

  • 14.6 图形并行系统

  • 14.7 Spark算法

  • 14.8 Pregel API

  • 14.9 GraphX的使用案例

  • 14.10 演示:GraphX顶点谓词

  • 14.11 演示:网页排名算法

  • 14.12 主要收获

  • 知识检查

  • 14.3 Spark GraphX

  • 14.14 项目辅助

查看更多
在线咨询
姓名
请输入姓名
电话
请输入电话
邮箱
请输入邮箱
需求
请输入需求
提供您的联系方式,即表示您同意我们的 隐私政策

行业项目

项目1

分析历史保险索赔

使用 Hadoop 功能预测汽车保险公司的模式并分享可执行的方案。

BFSI

项目2

分析员工情绪

从谷歌、Netflix和Facebook收集员工的评论数据,通过这些数据分析员工情绪。

人力资源

项目3

分析日内价格变动

使用Hive功能对纽约证券交易数据进行数据工程分析。

股票市场

项目4

分析产品性能

对产品和客户数据进行细分,以提高亚马逊的销售额。

电子商务(销售分析)

认证证书

达到认证条件后,您将获得由圣普伦和Simplilearn联名认证的电子证书。我们会通过电子邮件给您发送电子证书,证书上的名字以您注册时使用的名字为准。

认证条件

  • 85% 的自定进度的在线课程学习或参加在线课堂授课学习
  • 课程结束评估的分数不低于总分数75%
  • 至少成功通过一个项目评估

学员反馈

4.3

哈里·哈拉山

技术架构师 Infosys

Map reducer的培训真的很有趣,一个复杂的话题可以用一种可特别易于理解的方式讲解,通俗易懂。

4.0

维涅什·巴拉苏布拉马尼安

高级运维专家 IBM

我报名学习了大数据Hadoop/Spark大数据证书培训课程。课程组织得很好,涵盖了所有的概念和相关的真实项目和动手实践。课程导师非常好,及时解决培训过程中的所有问题。云实验室设施和提供的材料都非常有特色。

4.3

阿努沙·T·S

软件开发人员 Zibtek

我参加了 Big Data Hadoop和Spark Developer课程的学习,我喜欢导师的教学方法。他们知识渊博并乐于帮助我。总的来说我很满意这次培训,Simplilearn的云实验室也非常人性化。我会强烈推荐我的朋友来这里参加课程并提高他们自己的技能。

4.0

项目经理 IBM

项目经理 IBM

Gautam是整个培训课程中最好的导师。课堂上他花费了充足的时间解释课程内容并确保学员理解概念。毫无疑问,他是这个行业最顶尖的专家,我很高兴参加了他的课程。