从零开始学习Spark免费视频教程

从零开始学习Spark免费视频教程

Spark从零开始,核心知识&技能一站上手

免费 1156 人学习

课程目标:

Spark是目前大数据最火热的技术之一,本课程涉及scala编程语言,spark核心编程,spark-sql,Streaming等内容,同时结合实际案例干货,帮助数据从业人员能够快速入门和上手spark。


课程目的:

n  掌握Spark原理与架构;

n  掌握Spark-sql;

n  掌握Streaming;

n  了解Mllib分类聚类等算法;

n  掌握Scala编程;

 

讲师介绍:

平常心,Hortonworks认证专家,熟悉HDP。

多年大型互联网公司大数据应用开发经验。

 

课程大纲:

一、Spark环境搭建   

n  hdp,cdh环境搭建和对比

n  Apache Spark环境搭建    

二、RDD核心编程

n  MR和spark的WordCount对比 

n  RDD创建  

n  RDD的操作(Transformation,Action)   

n  持久化 

n  共享变量(广播,累加)   

n  数据倾斜案例  

三、DataFrame DataSet spark-sql编程

n  DataFrame创建   

n  HiveContext   

n  内置函数,窗口函数    

n  UDF、UDAF   

n  Spark-sql和tableau的整合   

n  Spark-sql和RDD的案例-TopN    

四、Streaming    

n  HDFS文件、Socket文件、Kafka 

n  DStream的操作(转换,输出)    

n  滑动窗口计算  

n  Spark-sql和Spark Streaming的结合案例-黑名单过滤

五、Mllib 

n  分类 回归算法 

n  聚类 Kmeans算法

n  推荐 ALS(基于物品的协同过滤)算法    

六、Scala编程

n  基础语法   

n  条件控制和循环     

n  函数和过程

n  lazy和异常

n  数组Array,ArrayBuffer和遍历   

n  Java数组和Scala数组的隐式转换 

n  Map和Tuple  

n  Java Map和Scala Map的隐式转换   

n  集合操作   

n  面向对象编程之类,对象,继承,Trait 

n  面向对象编程之对象    

n  面向对象编程之继承    

n  面向对象编程之Trait   

n  函数式编程

n  模式匹配   

n  正则表达式

n  样例类和提取器实战    

n  隐式转换和隐式参数     


综合案例:

1、数据倾斜案例

2、流量分析案例

3、IP地址库案例

4、流量图表案例

3.jpg

资料获取

本文所用课件、数据集、代码等将分享到课程公告及天善微信群。

关注课程更新情况,加天善课程助手管理员微信:tianshancourse,邀请进入微信交流群。

1.png

改版

反馈