全栈数据之路-数据科学杂货铺【天善智能网课】

课程标题：

全栈数据之路-数据科学杂货铺

【温馨提示：1. 你可以在PC端浏览器或者微信收藏该页面，以方便你快速找到这个课程；2. 课程相关资料可在课程PC端公告查看下载；3.加入课程后，点(课时)列表即可观看视频】

讲师介绍：

任柳江，网名云戒。有近10年经验的Linux及Emacs重度用户，熟悉Python及其Web开发、机器学习生态环境。熟悉大数据环境Hadoop、Hive、Spark。

曾在2008年组织创建Linux电子杂志《桃源》。做过安全测试和开发，同时具有开发的能力和测试的思维。爱好易学与佛学，目前专攻大数据与机器学习。

新书《全栈数据之门》在2017年04月，正式上架各大电商平台。

课程特色：

基于《全栈数据之门》这本书，有很多新的内容和扩展。

课程内容：

1. 平台技术

1.分布式计算平台 (Hadoop)

Google的论文：hdfs与map-reduce

Yahoo实现的开源版本

三大平台：Cloudera/Hortonworks/DataStax

2. 深度学习平台（GPU）

Nvidia: 显卡

Linux环境

cuda环境

intel-mkl

cudnn

重点：环境搭建，部分做数据分析的人，可能会卡在环境的搭建上，主要需要Linux技能。

2. 全栈基础

1.SQL技术

2.Linux及Shell, vim/find/grep/sed/awk/git

3.统计、概率基础

4.编程能力（以工程为导向）

5.大数据框架

6.数据处理&算法

7.笔记与文档（markdown）

重点：全面的熟悉数据科学中的知识点。

3. 分布式技术

1.hadoop（hdfs&mr）

2.Hive(sql)

3.Spark(rdd,df,sql)

4.Sqoop

5.Hbase/Cassandra

6.采集与消息队列：Flume/Kafka/Storm

7.全文索引(solr, elasticsearch)

重点：熟悉处理海量数据的常用工具，存储与分析，每个工具的适用场景

4. 数据库技术

1.MySQL

2.Postgresql

3.MongoDB

4.Redis

重点：数据库是数据分析中最常用的依托，熟悉SQL语句，以及如果使用Python来进行数据处理。

5. 语言技术

1.SQL语句（常用join语句）

2.python
python2与python3的问题
库：numpy, pandas, scikit-learn，nltk, pyltp, pyspark、anaconda

3.R
学术界，快速建模

4.Scala、java

重点：学习语言，是自动化处理数据和建模的必备工具，SQL必备，Python与R至少需要熟悉一种。要工程应用，Python是必备。

6. 数据挖掘

1.数据采集：rsync, api, MQ, 爬虫(scrapy)

2.数据清洗：SQL，Linux，py，R

3.特征工程：特征选择，特征变换

4.算法建模：各种框架与算法

5.模型评估：precision,recall,f1，mse

6.应用与可视化

重点：了解数据处理的一些常用方法，理解特征工程的方法，熟悉主流挖掘算法的基本过程，会调用相应的库来建模，理解算法评估的常用指标。

7. 机器学习

1.聚类、分类、回归
kmeans, knn, logistic regression, linear regression， navie bayes, 决策树、随机森林、神经网络、Xgboost

2.自然语言处理
CRF、分词、实体识别、语义分析，word2vec，深度学习(cnn,rnn)

3.个性推荐，用户画像

4.深度学习
应用（非结构化）：图片，语音，视频，自然语言处理
算法：auto encoder, cnn, rnn, lstm
框架：tf/keras/mxnet/caffe/pytorch

5.遗传算法：优化，ga, gp

重点：理解主流算法的应用场景及其主要参数，熟悉自然语言处理中一些基本的方法，理解深度学习的主要思想，熟悉一、两个深度学习框架，能使用迁移学习做一些图片分类的任务。

8. Web与可视化

1.Excel, matplotlib, seaborn

2.Django/Flask,JS/Html5/css3（Web开发）

3.superset(druid, mysql, postgresql, 简单易用的数据可视化界面)

4.zeppelin（支持分布式环境的Web笔记）

5.beakernotebook(ipython、jupyter，支持多种语言的Web笔记)

6.Orange3（图形化的数据挖掘工具）

7.airflow（Data pipeline监控）

8.DataScienceStudio（基于Web的数据分析、建模工具）

重点：数据可视化工具，数据可视化挖掘工具，交互式笔记工具，事半功倍的工具，数据分析入门的好工具，个人珍藏收集。

9. Spark全栈

1.RDD/DataFrame

2.ML/MLLib

3.SQL

4.Streaming

5.GraphX（PageRank）

6.spark/pyspark/sparkR

重点：当今世界最流行、不可多得的、分布式的，全栈数据处理、分析、挖掘环境。

10. H2O框架

1.h2o-flow（基于Web的自动化建模环境）

2.算法（drf, gbdt, word2vec，glrm）

3.sparkling water（结合Spark的优势）

4.deepwater（深度学习环境）

5.steam（建模与部署一体化）

重点：如生命离不开水一般，简单、优雅的数据挖掘、深度学习环境。高效的算法执行速度，高精度的算法产出。

友情提示

1、PC端如果发现浏览器无法观看课程，建议使用谷歌浏览器观看；移动端建议直接微信打开课程页面

2、【在微信加入课程的用户注意】请微信收藏课程页面或者关注微信公众号：天善智能（点“我的”即可查看你已加入的课程），已方便下次学习。

3、课程相关资料可在课程PC端公告查看下载；

4、加入学习后请添加客服微信：tianshansvip（请注明：公司+职位+姓名），邀请你加入微信课程群

天善九号.jpg

全栈数据之路-数据科学杂货铺