前言
《Spark快速大数据分析》是《Learning Spark》的中文版,算是Spark入门的必读书。这本书一大好处就是用三种语言实现,Python、Scala和Python。因为我做Java开发的时候感兴趣爬虫就学了python作为第二语言,而且现在公司大数据这块用的也是Python。所以这块是以Python为读书笔记。
ps:进阶Spark推荐看官方文档,这本书版本其实有点落后了,比如DataFrame这类知识点就没有跟上。我的观点就是好书带你入门,官方文档带你进阶。
Spark生态圈
Spark是一个用来实现快速而通用的集群计算平台,说白了就是个内存并行计算框架
与hadoop中MapReduce的一个区别就是Spark能够在内存中计算,所以速度更快。
Spark各组件如图(来自书中贴图)
Spark 核心组件概述
- Spark Streaming:支持高吞吐量、支持容错的实时流数据处理
- Spark SQL: 结构化数据查询
- MLLib:Spark 生态系统里用来解决大数据机器学习问题的模块
- GraphX是构建于Spark上的图计算模型
Spark 适用场景
目前大数据处理场景有以下几个类型:
1、复杂的批量处理(Batch Data Processing),偏重点在于处理海量数据的能力,至于处理速度可忍受,通常的时间可能是在数十分钟到数小时;
2、基于历史数据的交互式查询(Interactive Query),通常的时间在数十秒到数十分钟之间
3、基于实时数据流的数据处理(Streaming Data Processing),通常在数百毫秒到数秒之间
目前对以上三种场景需求都有比较成熟的处理框架,第一种情况可以用Hadoop的MapReduce来进行批量海量数据处理,第二种情况可以Impala进行交互式查询,对于第三中情况可以用Storm分布式处理框架处理实时流式数据。以上三者都是比较独立,各自一套维护成本比较高,而Spark的出现能够一站式平台满足以上需求。
- 本文标题: Spark快速大数据分析—读书笔记(一)
- 文章作者: sherryriver(木木三可)
- 发布时间: 2017.04.26
- 本文链接: https://sherryriver.github.io/2017/04/26/spark-1/
- 许可协议: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。