课程名称:
《数据分析与挖掘R语言十三式》
课程目标:
数据挖掘(R语言)从零开始,由浅入深,包括初级入门、中级进阶、高级提升和资深冲刺四个阶段,13套专业课程,从R语言基础、数据质量、数据可视化、数据挖掘、算法、机器学习等体系学习,介绍了R语言及数据分析与挖掘的各个技术细节。通过实际的案例演练,让学员真正体验数据挖掘与R的魅力。新手完全能够通过本课程学习,成长为优秀的R语言全栈专家。
课程特色:
录播课程自由学习,利用碎片化时间提升知识技能;
科学完整全套体系,从入门到轻松处理项目之所需;
资深名师悉心指导,解决学习问题并完成学习曲线;
理论实践互补结合,培养解决问题及独立研究能力。
课程建议:
如果你想从事数据分析和挖掘的工作,本课程是你不可或缺的要学习的内容,学习时,建议做好笔记,多敲代码,勤加练习,多和老师和同学交流,必可成为优秀的的数据从业人员。
主讲老师:
谢佳标
多届中国R语言大会演讲嘉宾;
目前为某游戏公司数据挖掘的负责人,带领团队对游戏数据进行深度挖掘,主要利用R语言进行*大数据的挖掘和可视化工作;
从事数据挖掘建模工作9年+,具有丰富的电商、电购、游戏、电力等行业经验,熟悉不同领域的数据特点,有丰富的利用R语言进行数据挖掘实战经验;
撰写《R语言与数据挖掘》、《R语言游戏数据分析》等书籍。
学习方式:
录播课程开课即学,可以自由选择学习时间;
在线反复观看,有效期2年,不定期公开课;
独享福利:VIP会员群+问答中心在线答疑。
课程大纲:
初级入门篇:(四个系列课程)
中级基础篇:(三个系列课程)
高级提升篇:(三个系列课程)
资深冲刺篇:(三个系列课程)
详细培训大纲:
第一阶段:R语言基础
第一课时:《R语言快速入门》
课程目的:学完本课程,掌握R及RStudio工具的安装及使用,了解R的工作空间和包,对数据结构、数据导入、基础绘图及描述性统计分析有个初步的了解。
课程介绍:
1、讲师自我介绍
2、课程大纲及常用分析工具介绍
3、R、RStudio and Rattle安装及介绍
4、新手上路
5、帮助、工作空间及包的介绍
6、数据对象向量详解
7、数据对象之矩阵和数据框
8、数据导入
9、R语言基础绘图
10、R语言描述性统计分析
第二课时:《R语言数据对象及数据基本管理》
课程目的:通过本课程学习,深入了解R语言不同数据对象创建及时间格式转换方法,掌握常用的数据管理技巧及会编写简单的分支和循环语句。
课程大纲:
第一章 数据对象
1、常用数据对象类型介绍
2、对象属性的判断和转换
3、日期变量及其常用函数介绍
4、查看对象的类型
5、向量创建及向量化操作详解
6、常用序列创建及索引向量介绍
7、因子的创建及储存原理
8、矩阵和数组的创建及应用
9、列表和数据框的创建
第二章 数据基本管理
1、数据基本管理知识点介绍及创建新变量
2、变量的重新编码
3、变量重命名
4、变量虚拟化处理详解
5、粘贴函数详解
6、转换函数transform介绍
7、排序函数(sort、order、rank)详解
8、选定特定行或者子集的subset函数详解
9、sqldf包介绍
第三章 循环及分支语句
1、分支语句详解
2、循环语句介绍
第三课时:《R语言数据导入导出》
课程目的:通过本课程学习,掌握文本文件、非结构化文件、excel文件的读入方式;掌握R语言与mysql数据库的连接方式及数据读取及操作;掌握quantmod包爬取金融数据的基本操作。
课程大纲:
1、课程大纲介绍
2、从键盘输入数据
3、利用RStuido导入数据
4、读入文本文件数据
5、将Excel数据读入R
6、利用foreign包读入spss、arff格式数据
7、利用RODBC包实现R与数据库连接
8、数据爬取之quantmod包介绍
9、利用其它方式爬取网络数据
第四课时:《数据描述性统计分析及数据抽样》
课程目的:通过本课程学习,掌握R语言常用的位置度量统计指标;深入探讨数据抽样,包括随机抽样函数sample及等比例抽样函数createDataParation函数的使用;运用SMOTE函数进行类失衡问题处理等等。
课程大纲:
第一章 描述性统计分析
1、课程大纲及描述性统计分析简介
2、均值函数的介绍及参数trim详解
3、mean函数的na.rm参数及weighted.mean函数介绍
4、median函数详解
5、百分位数quantile函数详解
第二章 数据抽样
1、数据抽样的必要性及常用场景
2、类失衡函数SMOTE详解
3、数据随机抽样sample函数
4、利用sample函数实现等比抽样
5、creatDataPartition函数介绍
6、用于交叉验证的样本抽样-creatFolds函数
7、数据标准化- preProcess()函数
第五课时:《R语言绘图基础》
课程目的:通过本课程学习,掌握R常用图形参数(颜色、点、线、文字);低级绘图函数(标题、图例、坐标轴、点、线) 以及基础包中常用高级绘图函数的用法。
课程大纲:
第一章 绘图参数设置
1、R语言绘图基础及颜色参数col详解
2、主题配色函数详解
3、RColorBrewer颜色扩展包详解
4、文字元素相关参数设置详解
5、点元素相关参数设置详解
6、线元素相关参数设置详解
第二章 低级绘图函数
1、标题设置详解
2、坐标轴axis函数详解
3、图例函数legend详解
4、网格线grid、点point、文字text函数介绍
5、线函数abline、lines详解
第三章 基础包中高级绘图函数
1、基础包中 常见绘图函数
2、散点图、散点图矩阵、高密度散点图、三维散点图以及气泡图详解
3、线图、点图、直方图、核密度图、箱线图
第六课时:《R语言之高级绘图》
课程目的:通过本课程学习,灵活应用lattice包、ggplot2包对复杂数据进行可视化;掌握常用的数据可视化交互包rCharts、recharts、rborkeh、plotly等包的安装及使用。
课程大纲:
第一章 ggplot2绘图系统
1、ggplot2原理及qplot函数介绍
2、ggplot常用函数及案例演示
3、ggplot绘制散点图、柱状图、直方图演示
4、ggthemes主题包介绍
第二章 lattice绘图系统
5、lattice包小例子
6、图形参数设置
7、条件变量
8、面板函数
9、分组变量
10、lattice高级绘图函数介绍
11、条形图barchart函数详解
12、点图dotplot函数详解
13、直方图histogram、核密度图densityplot和带状图stripplot函数介绍
14、QQ图qqmath和qq函数、箱线图bwplot、散点图xyplot、散点图矩阵splom函数介绍
15、lattice包中三维图绘制介绍
第三章 交互式绘图
16、rCharts包安装及小例子演示
17、nPlot函数绘制柱状图和条形图
18、利用nPlot函数绘制饼图和散点图
19、hPlot和mPlot函数介绍和案例演示
20、recharts包介绍及散点图案例演示
21、recharts绘制条形图雷达图和中文数据测试
22、rbokeh包介绍及案例演示
23、plotly包介绍及案例演示
24、其他交互包的介绍
第七课时:《R语言之数据探索》
课程目的:通过本课程学习,理解数据质量分析的重要性;掌握缺失值高级处理的方法;通过数据分析手段分析异常值以及研究连续性变量间的相关性。
课程大纲:
1、数据质量
数据质量分析理论知识
课程大纲及数据缺失值产生原因介绍
缺失值的影响和简单分析
2、异常值的处理方法介绍
缺失值处理的高级方法
缺失值处理的步骤和常用方法介绍
识别缺失值(na和complete.cases函数详解)
3、md.pattern函数详解
4、探索缺失值模式:aggr函数详解
5、缺失值处理:行删除和利用缺失值进行替换
6、利用线性回归和随机森林对缺失值进行插补
异常值处理
质量控制图qcc函数详解
利用stats函数识别异常值2
7、利用K-Means聚类识别异常值
相关性分析
相关性分析的常用方法
散点图矩阵详解
求相关系数值及可视化
第二阶段:R语言模型篇
第八课时:《数据挖掘算法之统计模型篇》
课程目的:通过本课程学习,掌握常用经典挖掘算法:线性回归、降维技术、聚类分析及关联规则的基本原理及R语言实现;并通过案例带领大家进行实战。
课程大纲:
线性回归及广义线性回归模型
线性回归基本原理
一元线性回归
多元线性回归
回归诊断
广义线性回归模型基本原理
Logit回归
降维技术
主成分分析的基本原理
主成分分析的R语言实现
案例:利用主成分分析构建股票市场指数
因子分析的基本原理
因子分析的R语言实现
案例:对洛杉矶街区数据进行因子分析
对应分析的基本原理
对应分析的R语言实现
案例:游戏玩家购物喜欢的对应分析
聚类分析
距离的计算方法:dist函数
常用聚类分析的原理:K-Means聚类、层次聚类的实现原理详细介绍
常用聚类分析的R语言实现
案例:对鸢尾花数据集进行K-Means聚类
案例:对汽车数据集进行K-Means聚类
案例:对洛杉矶街区数据进行层次聚类
案例:对汽车数据集进行层次聚类
关联规则
关联规则的基本概念:关联规则的原理及Apriori算法介绍
关联规则的R语言实现
关联规则可视化-arulesViz包介绍
案例:利用超市购物篮Groceries数据进行关联规则分析
第九课时:《数据挖掘算法之机器学习篇》
课程目的:通过本课程学习,掌握常用机器学习算法:KNN近邻算法、朴素贝叶斯算法、决策树算法已经组合算法的基本原理及R语言实现。
课程大纲:
KNN近邻分类算法
KNN近邻算法基本原理介绍
KNN近邻算法R语言实现
案例:对iris数据集进行knn分类
案例:对乳腺癌数据集wisc_bc_data进行knn分类
朴素贝叶斯分类
朴素贝叶斯分类算法原理
朴素贝叶斯算法的R语言实现
案例:对数据集PimaIndiansDiabetes进行分类
案例:利用朴素贝叶斯分类对文本数据进行分类
决策树算法
理解决策树基本原理
不同决策树算法的核心理念
不同决策树算法的R语言实现
案例:利用不同的决策树算法对鸢尾花数据集进行分类预测
案例:利用不同的决策树算法对汽车数据集进行分类预测
应用组合算法进行分类
为什么要用组合算法
常用组合算法的原理介绍
不同组合算法的R语言实现
案例:对胎心宫缩监护数据的胎儿状态分类进行研究
案例:对汽车数据集中的用户满意度状态进行研究
第十课时:《数据挖掘算法之模型评估篇》
课程目的:通过本课程学习,掌握常用的模型评估方法:混淆矩阵、ROC曲线、K折交叉验证等。
课程大纲:
混淆矩阵
深入了解混淆矩阵
使用混淆矩阵度量性能
ROC曲线
ROC曲线的理论知识
ROC曲线的R绘制方法
利用caret包比较ROC曲线
基于K折交叉验证方法
K折交叉验证基本原理
利用e1071包完成交叉验证
利用caret包完成交叉验证
第三阶段:R语言进阶篇
第十一课时:《数据挖掘可视化工具:Rattle篇》
课程目的:通过本课程学习,掌握Rattle工具的基本操作,实现快速完成数据探索、数据预处理、数据建模、模型评估等数据挖掘工作。
课程大纲:
Rattle介绍及安装
Rattle简介
Rattle介绍
功能预览
数据导入Rattle
导入csv格式数据
导入txt格式数据
导入ARFF数据
导入ODBC数据
导入其他数据
数据探索
数据总体概要
数据分布探索(数据可视化)
数据相关性分析
数据主成分分析
交互图
数据建模及模型评估
聚类分析
关联规则
决策树
随机森林
模型评估
第十二课时:《利用shiny快速搭建数据挖掘平台原型》
课程目的:通过本课程学习,掌握shiny及shinydashboard包的知识点,通过实际案例详解让学员达到自行搭建网页app应用的能力。
课程大纲:
第一章 利用shiny包快速搭建数据分析平台原型
shiny包介绍
shiny包搭建web网页原理
shiy框架介绍
常用控件介绍
案例详细介绍
第二章 利用shinydashboard包快速搭建BI平台
shinydashboard包介绍
shinydashboard框架介绍
常用函数介绍
案例:快速搭建数据分析平台原理
输出lattice包、ggplot2等常规图形
输出rCharts包、DT包、networkD3包等交互图形
第三章 在平台输出模型结果:关联分析规则可视化&聚类分析结果可视化
案例:用户细分及付费预测平台
平台基本功能介绍
平台框架搭建
代码详解
第四章 案例渠道用户打分平台
平台基本功能介绍
平台框架搭建
代码详解
第十三课时:《行业案例分享》
课程目的:通过本课程学习,提升知识点综合应用能力。通过不同行业案例的分享,掌握数据挖掘在实际业务数据中的方法论,达到举一反三,进而能将挖掘技术应用到自己实际数据中去。
课程大纲:
第一章 案例:对玩家付费行为进行预测
对玩家物品购买关联分析
基于玩家物品的智能推荐
玩家社会网络分析
第二章 案例:航空公司客户价值分析
背景与挖掘目标
分析方法与过程
数据探索分析
数据预处理
模型构建
模型应用
第三章 案例:基于数据挖掘技术的市财政收入分析预测模型
背景与挖掘目标
分析方法与过程
数据探索分析
数据预处理
模型构建
模型应用
第四章 案例:预测股票市场收益
问题描述与目标
定义预测任务
预测模型
模型评价和选择
第五章 案例:侦测欺诈交易
问题描述与目标
定义数据挖掘任务
计算离群值的排序
第六章 案例:客户回复预测与效益最大化
问题描述与目标
数据探索
训练决策树
模型评估
选择最有决策树
评分
友情提示:
1、PC端如果发现浏览器无法观看课程,建议使用谷歌浏览器观看;移动端建议直接微信打开课程页面。
2、如果购买后下次登录提示课程需要重新购买,一般是因为你把登录账户记成你绑定的手机或者邮箱帐号而混淆了。
3、【在微信购买课程的用户注意】请微信收藏课程页面或者关注微信公众号:天善智能(点“我的”即可查看你已购买的课程),已方便下次学习。
4、课程相关资料&QQ会员群可在课程PC端公告查看下载。
5、加入学习后请添加客服微信:tianshansoft08(请注明:数据分析师八大能力培养),邀请你加入微信VIP群与老师&同学交流讨论。(如果已经是天善一号或者天善六号的微信好友,请直接私信他们)