零基础入门大数据分析

零基础入门大数据分析

大数据包含太多东西了,从数据仓库、hadoop、hdfs、hive到spark、kafka等,每个要详细的说都会要很久的,所以我不认为这里面有一个答案是合理的。

还是得根据自己的职业规划来,毕竟成为大数据架构师,需要走的路还非常长。

需要涉及到的东西有很多,有些答主随便写了一点所谓的“路线”和“心得”,就想来求赞?

小编今天就来说说,学习大数据之前,需要先了解了解的一些核心技术。

简单来说,从大数据的生命周期来看,无非四个方面:大数据采集、大数据预处理、大数据存储、大数据分析,这四个方面共同构成了大数据生命周期中的核心技术。

一、大数据采集

大数据采集,即对各种来源的结构化和非结构化海量数据,所进行的采集。

零基础入门大数据分析

数据库收集:目前流行的是Sqoop和ETL,传统的关系数据库MySQL和Oracle仍然作为很多企业的数据存储方式。当然,目前开源的Kettle和Talend也集成了大数据集成内容,可以实现hdfs、hbase和主流Nosq数据库之间的数据同步和集成。

网络数据采集:一种借助网络爬虫或网站公开API,从网页获取非结构化或半结构化数据,并将其统一结构化为本地数据的数据采集方式。

文件采集:包括实时文件采集和处理技术flume、基于ELK的日志采集和增量采集等等。

二、大数据预处理

数据库收集:目前流行的是Sqoop和ETL,传统的关系数据库MySQL和Oracle仍然作为很多企业的数据存储方式。当然,目前开源的Kettle和Talend也集成了大数据集成内容,可以实现hdfs、hbase和主流Nosq数据库之间的数据同步和集成。

零基础入门大数据分析

1、数据清理

2、数据集成

3、数据转换

4、数据规约

三、大数据存储

大数据存储,指用存储器,以数据库的形式,存储采集到的数据的过程,包含三种典型路线:

1、基于MPP架构的新型数据库集群

采用Shared Nothing架构,结合MPP架构的高效分布式计算模式,通过列存储、粗粒度索引等多种大数据处理技术,重点研究行业大数据开发的数据存储模式。它具有低成本、高性能和高扩展性的特点,在企业分析应用中得到了广泛的应用。

零基础入门大数据分析

与传统数据库相比,基于MPP产品的PB级数据分析能力具有明显优势。自然,MPP数据库已经成为企业新一代数据仓库的最佳选择。

2、基于Hadoop的技术扩展和封装

基于Hadoop的技术扩展和封装是利用Hadoop的开源优势和相关特性(擅长处理非结构化和半结构化数据、复杂的ETL流程、复杂的数据挖掘和计算模型等)衍生相关大数据技术的过程。),针对传统关系数据库中难以处理的数据和场景。

伴随着技术进步,其应用场景也将逐步扩大,目前最为典型的应用场景:通过扩展和封装 Hadoop来实现对互联网大数据存储、分析的支撑,其中涉及了几十种NoSQL技术。

3、大数据一体机

该产品是专门为大数据分析和处理而设计的软硬件结合。它由一套集成的服务器、存储设备、操作系统、数据库管理系统和预装优化的数据查询、处理和分析软件组成,具有良好的稳定性和纵向可扩展性。

四、大数据分析挖掘

大数据可视化分析、数据挖掘算法、预测分析、语义引擎、数据质量管理等。,提取、提炼和分析混沌数据的过程。

分享扩散:

改版

反馈