课程标题:
全栈数据之路-数据科学杂货铺
【温馨提示:1. 你可以在PC端浏览器或者微信收藏该页面,以方便你快速找到这个课程;2. 课程相关资料可在课程PC端公告查看下载;3.加入课程后,点(课时)列表即可观看视频 】
讲师介绍:
任柳江,网名云戒。有近10年经验的Linux及Emacs重度用户,熟悉Python及其Web开发、机器学习生态环境。熟悉大数据环境Hadoop、Hive、Spark。
曾在2008年组织创建Linux电子杂志《桃源》。做过安全测试和开发,同时具有开发的能力和测试的思维。爱好易学与佛学,目前专攻大数据与机器学习。
新书《全栈数据之门》在2017年04月,正式上架各大电商平台。
课程特色:
基于《全栈数据之门》这本书,有很多新的内容和扩展。
执利器而守重镇——Python很强大的领域在数据科学
窥全貌而知路径——整合Linux|Python|SQL|Hadoop|Hive|Spark|数据挖掘|机器学习|深度学习
知原理而致应用——全栈数据既指数据技术,也指业务数据,生产环境是结尾的检验场。
立平台而生数据——建设强大数据平台,是支撑产品也业务的必由之路。
课程内容:
1. 平台技术
1.分布式计算平台 (Hadoop)
Google的论文:hdfs与map-reduce
Yahoo实现的开源版本
三大平台:Cloudera/Hortonworks/DataStax
2. 深度学习平台(GPU)
Nvidia: 显卡
Linux环境
cuda环境
intel-mkl
cudnn
重点:环境搭建,部分做数据分析的人,可能会卡在环境的搭建上,主要需要Linux技能。
2. 全栈基础
1.SQL技术
2.Linux及Shell, vim/find/grep/sed/awk/git
3.统计、概率基础
4.编程能力(以工程为导向)
5.大数据框架
6.数据处理&算法
7.笔记与文档(markdown)
重点:全面的熟悉数据科学中的知识点。
3. 分布式技术
1.hadoop(hdfs&mr)
2.Hive(sql)
3.Spark(rdd,df,sql)
4.Sqoop
5.Hbase/Cassandra
6.采集与消息队列:Flume/Kafka/Storm
7.全文索引(solr, elasticsearch)
重点:熟悉处理海量数据的常用工具,存储与分析,每个工具的适用场景
4. 数据库技术
1.MySQL
2.Postgresql
3.MongoDB
4.Redis
重点:数据库是数据分析中最常用的依托,熟悉SQL语句,以及如果使用Python来进行数据处理。
5. 语言技术
1.SQL语句(常用join语句)
2.python
python2与python3的问题
库:numpy, pandas, scikit-learn,nltk, pyltp, pyspark、anaconda
3.R
学术界,快速建模
4.Scala、java
重点:学习语言,是自动化处理数据和建模的必备工具,SQL必备,Python与R至少需要熟悉一种。要工程应用,Python是必备。
6. 数据挖掘
1.数据采集:rsync, api, MQ, 爬虫(scrapy)
2.数据清洗:SQL,Linux,py,R
3.特征工程:特征选择,特征变换
4.算法建模:各种框架与算法
5.模型评估:precision,recall,f1,mse
6.应用与可视化
重点:了解数据处理的一些常用方法,理解特征工程的方法,熟悉主流挖掘算法的基本过程,会调用相应的库来建模,理解算法评估的常用指标。
7. 机器学习
1.聚类、分类、回归
kmeans, knn, logistic regression, linear regression, navie bayes, 决策树、随机森林、神经网络、Xgboost
2.自然语言处理
CRF、分词、实体识别、语义分析,word2vec,深度学习(cnn,rnn)
3.个性推荐,用户画像
4.深度学习
应用(非结构化):图片,语音,视频,自然语言处理
算法:auto encoder, cnn, rnn, lstm
框架:tf/keras/mxnet/caffe/pytorch
5.遗传算法:优化,ga, gp
重点:理解主流算法的应用场景及其主要参数,熟悉自然语言处理中一些基本的方法,理解深度学习的主要思想,熟悉一、两个深度学习框架,能使用迁移学习做一些图片分类的任务。
8. Web与可视化
1.Excel, matplotlib, seaborn
2.Django/Flask,JS/Html5/css3(Web开发)
3.superset(druid, mysql, postgresql, 简单易用的数据可视化界面)
4.zeppelin(支持分布式环境的Web笔记)
5.beakernotebook(ipython、jupyter,支持多种语言的Web笔记)
6.Orange3(图形化的数据挖掘工具)
7.airflow(Data pipeline监控)
8.DataScienceStudio(基于Web的数据分析、建模工具)
重点:数据可视化工具,数据可视化挖掘工具,交互式笔记工具,事半功倍的工具,数据分析入门的好工具,个人珍藏收集。
9. Spark全栈
1.RDD/DataFrame
2.ML/MLLib
3.SQL
4.Streaming
5.GraphX(PageRank)
6.spark/pyspark/sparkR
重点:当今世界最流行、不可多得的、分布式的,全栈数据处理、分析、挖掘环境。
10. H2O框架
1.h2o-flow(基于Web的自动化建模环境)
2.算法(drf, gbdt, word2vec,glrm)
3.sparkling water(结合Spark的优势)
4.deepwater(深度学习环境)
5.steam(建模与部署一体化)
重点:如生命离不开水一般,简单、优雅的数据挖掘、深度学习环境。高效的算法执行速度,高精度的算法产出。
友情提示
1、PC端如果发现浏览器无法观看课程,建议使用谷歌浏览器观看;移动端建议直接微信打开课程页面
2、【在微信加入课程的用户注意】请微信收藏课程页面或者关注微信公众号:天善智能(点“我的”即可查看你已加入的课程),已方便下次学习。
3、课程相关资料可在课程PC端公告查看下载;
4、加入学习后请添加客服微信:tianshansvip(请注明:公司+职位+姓名),邀请你加入微信课程群