课程名称:
Spark生态圈数据分析课程
【温馨提示:1. 你可以在PC端浏览器或者微信收藏该页面,以方便你快速找到这个课程;2. 课程相关资料可在课程PC端公告查看下载;3.加入课程后,点(课时)列表即可观看视频 】
课程特色:
整个课程由浅入深,带领大家深入学习Spark大数据生态圈,了解基于Spark构建的
丰富多彩的组件SparkSql、SparkStreaming、SparkGraphx、SparkML、SparkBigML
等技术。每一个模块的知识都精心设计实战案例,助大家快速掌握Spark核心知识及应用
场景,带大家取得思想技能的提升,自然薪资up up up!
讲师介绍:
张敏,大数据工程师/算法工程师/大数据讲师,毕业于西华大学软件工程专业。曾就职于亨通网智科技有限公司及北京汇通天下物联网科技有限公司,主要负者大数据平台搭建,大数据业务的实现和分析,并为其它部门提供技术指导。目前在物联网公司参加公司大数据平台建设及数据挖掘工作,在大数据领域有着丰富的实战经验。擅长领域:Spark/Hadoop、算法设计及系统架构、数据挖掘、机器学习。在Spark内核方面有深入的研究,参与Scala基础入门,Spark内核及性能优化相关书籍部分内容的编写工作。
学习方式:
基础理论结合案例实战,跟着老师一起完成项目环境的搭建,项目实战的编码。跟着老师的思路拥抱大数据。
课程大纲:
第一阶段:Spark基础课程
1.Spark生态圈数据分析课程介绍及大数据生态圈十年史,一览整个大数据生态圈
2.10分钟搭建Spark集群
3.20分钟完成开发环境的搭建及快速入门案例,10分钟带大家入门Spark大数据开发
4.Spark产生的原因及RDD设计的精髓
5.一张图带你了解Spark框架中的术语
6.Spark中的算子操作实战,精心设计的实战案例,带大家快速掌握各种transformation操
做
7.站在源码角度看Spark中的Action触发作业提交的原理。
8.洞察Spark中的子系统(RPC,Scheduler,存储系统,Shuffle子系统等等),整体把握
Spark框架
9.窥探Spark中的调度模式(standalone,yarn,mesos)
10.窥探Spark中的存储框架(BlockManager)
11.窥探Spark中的通信系统(RPC)
12.窥探Spark中的Shuffle模块,简诉Shuffle的发展史及Shuffle原理
13.Spark作业提交过程全解析
14.综合的项目实战(分析PM2.5数据,完成天气状况的分析)
15.介绍Spark Sql
第二阶段:Spark Sql交互式数据查询及数据分析
第三阶段:Spark Streaming流式数据处理及案例分享
第四阶段:Spark Graphx图计算进阶
第五阶段:Spark ML机器学习及算法
第六阶段:SparkR使用R完成数据统计模型的创建
第七阶段:Spark BigDL深度学习框架探索
友情提示
1、PC端如果发现浏览器无法观看课程,建议使用谷歌浏览器观看;移动端建议直接微信打开课程页面
2、【在微信加入课程的用户注意】请微信收藏课程页面或者关注微信公众号:天善智能(点“我的”即可查看你已加入的课程),已方便下次学习。
3、课程相关资料可在课程PC端公告查看下载;
4、加入学习后请添加客服微信:tianshansvip(请注明:公司+职位+姓名),邀请你加入微信课程群