大数据学习之核心技术

大数据学习之核心技术

大数据技术体系庞大而复杂。基础技术包括数据采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等技术门类和不同的技术层次。通用大数据处理框架主要分为以下几个方面:大数据采集与预处理、大数据存储、大数据清洗、大数据查询分析和大数据可视化。

1、 大数据采集

大数据采集是指从各种来源采集结构化和非结构化的海量数据。

数据库收集:流行的是sqoop和ETL,传统的关系数据库MySQL和Oracle仍然是很多企业的数据存储方式。当然,对于开源水壶和人才本身来说,大数据整合的内容也是整合的,实现了HDFS、HBase和主流nosq数据库之间的数据同步和整合。

网络数据采集:一种借助网络爬虫或网站开放API从网页中获取非结构化或半结构化数据,并将其统一为本地数据的数据采集方法。

文件采集:包括实时文件采集处理技术flume、基于elk的日志采集、增量采集等。

大数据学习之核心技术

2、大数据预处理

Big data preprocessing指的是“清理、填充、平滑、合并、规范化、,在数据分析之前对原始数据进行一致性检验,旨在提高数据质量,为以后的分析奠定基础。数据预处理主要包括数据清洗、数据集成、数据转换和数据规范四个部分。

3、 大数据存储

海量信息每年都在增加,现有的历史数据信息给整个行业的数据存储和处理带来了巨大的机遇和挑战,云存储需要具有高可扩展性、高可靠性、高可用性的特点,低成本、自动容错和分散化。云存储的常见形式可分为分布式文件系统和分布式数据库。其中,分布式文件系统采用大规模分布式存储节点来满足存储大量文件的需要,而分布式NoSQL数据库则为大规模非结构化数据的处理和分析提供了支持。

4、 大数据清理

MapReduce作为Hadoop的查询引擎,用于大规模数据集的并行计算。”“地图”和“减少”是其主要思想。对于程序员来说,在分布式系统中运行程序是非常方便的,而无需分布式并行编程。随着业务数据的增加,需要训练和清理的数据将变得越来越复杂。此时,需要使用任务调度系统(如oozie或Azkaban)来调度和监控关键任务。

5、 大数据查询分析

hive的核心工作是将SQL语句翻译成Mr程序,Mr程序可以将结构化数据映射到数据库表中,并提供HQL&40;hive SQL&41;查询功能。Hive本身并不存储和计算数据,它完全依赖于HDFS和MapReduce。Hive可以理解为一个客户机工具,用于将SQL操作转换为相应的MapReduce作业,然后在Hadoop上运行。Hive支持标准SQL语法,这避免了用户编写MapReduce程序的过程。它使精通SQL技能,但不熟悉MapReduce,编程能力弱,不擅长Java语言的用户能够用SQL语言对HDFS大型数据集上的数据进行查询、汇总和分析。

6、 大数据可视化

大数据可视化主要是基于并行算法设计技术,合理利用有限的计算资源,高效处理和分析特定数据集的特性。通常,大规模数据可视化技术会与多分辨率表示相结合,以获得足够的交互性能。在大规模科学数据的并行可视化中,有四种基本技术:数据流线化、任务并行化、流水线并行化和数据并行化。

综上所述,简单介绍了大数据的核心技术。如果你想了解它们的具体功能和用途,就需要更加努力和深入的了解。

分享扩散:

改版

反馈