spark Straming介绍_转创国际教育

随着大数据技术的不断发展，人们对于大数据的实时性处理要求也在不断提高，传统的 MapReduce 等批处理框架在某些特定领域，例如实时用户推荐、用户行为分析这些应用场景上逐渐不能满足人们对实时性的需求，因此诞生了一批如 S3、Storm 这样的流式分析、实时计算框架。Spark 由于其内部优秀的调度机制、快速的分布式计算能力，所以能够以极快的速度进行迭代计算。正是由于具有这样的优势，Spark 能够在某些程度上进行实时处理，Spark Streaming 正是构建在此之上的流式框架。

1.2 Spark Streaming 设计

支持输入输出的数据源：

Spark Streaming 是 Spark 的核心组件之一，它可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据，包括Kafka、ZeroMQ等消息队列以及TCP sockets或者目录文件从数据源获取数据之后，可以使用诸如map、reduce、join和window等高级函数进行复杂算法的处理。最后还可以将处理结果存储到文件系统，数据库或显示在仪表盘里。

Spark Streaming 的基本原理：

Spark Streaming 的基本原理是将实时输入数据流以时间片（通常在0.5~2秒之间）为单位进行拆分，然后采用 Spark 引擎以类似批处理的方式处理每个时间片数据，执行流程如下图所示：

对应的批数据，在Spark内核对应一个RDD实例，因此，对应流数据的DStream可以看成是一组RDDs，即RDD的一个序列。通俗点理解的话，在流数据分成一批一批后，通过一个先进先出的队列，然后 Spark Engine从该队列中依次取出一个个批数据，把批数据封装成一个RDD，然后进行处理，这是一个典型的生产者消费者模型，对应的就有生产者消费者模型的问题，即如何协调生产速率和消费速率。

Spark Streaming 最主要的抽象是离散化数据流（DStream），DStream 表示连续不断的数据流。在内部实现上，Spark Streaming 的输入数据按照时间片分成一段一段，每一段数据转换为 Spark 中的 RDD，并且对 DStream 的操作都最终被转变为相应的 RDD 操作。如下图所示：

原理示例：

以 wordcount 为例，一个又一个句子会像流水一样源源不断到达，Spark Streaming 会把数据流按照时间片切分成一段一段，每段形成一个 RDD，这些 RDD 构成了一个 DStream。对这个 DStream 执行 flatMap 操作时，实际上会被转换成针对每个 RDD 的 flatMap 操作，转换得到的每个新的 RDD 又构成了一个新的DStream。如下图所示：

val words:DStream = lines.flatMap(_.split("\t"))

DStream的转换其实是每批次rdd的转换

10:00:00--10:00:05 10:00:05--10:00:10 10:00:10--10:00:15 10:00:15--10:00:20

2 架构及运行流程

2.1 架构

Spark Streaming使用“微批次”的架构，把流试计算当成一系列连接的小规模批处理来对待，Spark Streaming从各种输入源中读取数据，并把数据分成小组的批次，新的批次按均匀的时间间隔创建出来，在每个时间区间开始的时候，一个新的批次就创建出来，在该区间内收到的数据都会被添加到这个批次中，在时间区间结束时，批次停止增长。时间区间的大小是由批次间隔这个参数决定的，批次间隔一般设在500毫秒到几秒之间，由应用开发者配置，每个输出批次都会形成一个RDD，以Spark作业的方式处理并生成其他的RDD。并能将处理结果按批次的方式传给外部系统。

接收器用于接收外部输入数据（文件流除外），然后Spark分批次生成新的RDD去处理，最后把批次处理的结果存储到外部系统中。

注意：

在本地运行Spark Streaming程序时，请勿使用“ local”或“ local [1]”作为主URL。这两种方式均意味着仅一个线程将用于本地运行任务。如果您使用的是基于接收器的输入DStream（例如套接字，Kafka，Flume等），则将使用单个线程来运行接收器，而不会留下任何线程来处理接收到的数据。因此，在本地运行时，请始终使用“ local [ n ]”作为主URL，其中n >要运行的接收器数量。

2.2 运行流程

SparkStreaming 分为Driver端和 Client端。

Driver端为StreamingContext实例，包括JobScheduler 、DStreamGraph 等；

Client端为 ReceiverSupervisor 和 Receiver。

SparkStreaming 进行流数据处理的大概步骤：

1）启动流处理引擎；

2）接收及存储流数据；

3）处理流数据；

4）输出处理结果；

step1：启动流处理引擎；

StreamingContext 初始化时，会初始化JobScheduler 、DStreamGraph 实例。其中：

DStreamGraph：存放DStream 间的依赖关系，就像RDD的依赖关系一样；

JobScheduler：JobScheduler 是SparkStreaming 的 Job 总调度者。它包括 ReceiverTracker 和 JobGenerator。

ReceiverTacker：它负责启动、管理各个executor的流数据接收器（Receiver）及管理各个Receiver 接收到的数据。当ReceiverTacker启动过程中，会初始化executor 的流数据接收管理器（ReceiverSupervisor），再由它启动流数据接收器（Receiver）。

JobGenerator：它是批处理作业生成器，内部维护一个定时器，定时处理批次的数据生成作业。

step2：接收及存储流数据；

当Receiver 启动后，连续不断的接收实时流数据，根据传过来的数据大小进行判断，如果数据小，就攒多条数据成一块，进行块存储；如果数据大，则一条数据成一块，进行块存储。

块存储时会根据是否设置预写日志文件分成两种方式：

1）不设置预写日志文件，就直接写入对应Worker的内存或磁盘。

2）设置预写日志文件，会同时写入对应Worker的内存或磁盘和容错文件系统（比如hdfs），设置预写日志文件主要是为了容错，在当前节点出故障后，还可以恢复。

数据存储完毕后，ReceiverSupervisor 会将数据存储的元信息（streamId、数据位置、数据条数、数据 size 等信息）上报给 Driver端的 ReceiverTacker。ReceiverTacker 维护收到的元数据信息。

step3：处理流数据；

在 StreamingContext 的 JobGenerator 中维护一个定时器，该定时器在批处理时间到来时会进行生成作业的操作。在操作中进行如下操作：

1）通知 ReceiverTacker 将接收到到的数据进行提交，在提交时采用 synchronize 关键字进行处理，保证每条数据被划入一个且只被划入一个批次中。

2）要求 DStreamGraph 根据 DStream 依赖关系生成作业序列 Seq[Job]。

3）从 ReceiverTacker 中获取本批次数据的元数据。

4）把批处理时间、作业序列 Seq[Job] 和本批次数据的元数据包装为 JobSet。调用 JobScheduler.submitJobSet(JobSet) 提交给 JobScheduler，JobScheduler 将把这些作业放到作业队列，Spark 核心在从作业队列中取出执行作业任务。由于中间有队列，所以速度非常快。

5）当提交本批次作业结束，根据是否设置checkpoint，如果设置checkpoint，SparkStreaming 对整个系统做checkpoint。

step4：输出处理结果

由于数据的处理有Spark核心来完成，因此处理的结果会从Spark核心中直接输出至外部系统，如数据库或者文件系统等，同时输出的数据也可以直接被外部系统所使用。由于实时流数据的数据源源不断的流入，Spark会周而复始的进行数据的计算，相应也会持续输出处理结果。

3 DStream

3.1 DStream 输入源

3.2 DStream 转换操作

对于DStream 无状态转换操作而言，不会记录历史状态信息，每次对新的批次数据进行处理时，只会记录当前批次数据的状态。

3.2.1 DStream 无状态转换操作

对于DStream 无状态转换操作而言，不会记录历史状态信息，每次对新的批次数据进行处理时，只会记录当前批次数据的状态。

3.2.2 DStream 有状态转换操作

DStream 有状态转换操作包括滑动窗口转换操作和 updateStateByKey 操作。

1）滑动窗口转换操作

对于窗口操作，批处理间隔、窗口间隔和滑动间隔是非常重要的三个时间概念，是理解窗口操作的关键所在。

批处理间隔：

在Spark Streaming中，数据处理是按批进行的，而数据采集是逐条进行的，因此在Spark Streaming中会先设置好批处理间隔（batch duration），当超过批处理间隔的时候就会把采集到的数据汇总起来成为一批数据交给系统去处理。

窗口间隔：

对于窗口操作而言，在其窗口内部会有N个批处理数据，批处理数据的大小由窗口间隔（window duration）决定，而窗口间隔指的就是窗口的持续时间，在窗口操作中，只有窗口的长度满足了才会触发批数据的处理。

滑动间隔（slide duration）：

它指的是经过多长时间窗口滑动一次形成新的窗口，滑动窗口默认情况下和批次间隔的相同，而窗口间隔一般设置的要比它们两个大。在这里必须注意的一点是滑动间隔和窗口间隔的大小一定得设置为批处理间隔的整数倍。

滑动间隔 < 窗口间隔，会有重复数据。

滑动间隔 == 窗口间隔，正好不重复，也不漏数据。

滑动间隔 > 窗口间隔，会漏数据。

滑动间隔、窗口间隔一定是批处理间隔的整数倍。

如图所示，批处理间隔是1个时间单位，窗口间隔是3个时间单位，滑动间隔是2个时间单位。对于初始的窗口time 1-time 3，只有窗口间隔满足了才触发数据的处理。这里需要注意的一点是，初始的窗口有可能流入的数据没有撑满，但是随着时间的推进，窗口最终会被撑满。第一个窗口生成之后才会再滑动生成新的窗口，当每个"2"个时间单位，窗口滑动一次后，会有新的数据流入窗口，这时窗口会移去最早的两个时间单位的数据，而与最新的两个时间单位的数据进行汇总形成新的窗口（time3-time5）。

Spark Streaming 还提供了窗口的计算，它允许你通过滑动窗口对数据进行转换，窗口转换操作如下：

转换	描述
window(windowLength, slideInterval)	返回一个基于源DStream的窗口批次计算后得到新的DStream。
countByWindow(windowLength,slideInterval)	返回基于滑动窗口的DStream中的元素的数量。
reduceByWindow(func, windowLength,slideInterval)	基于滑动窗口对源DStream中的元素进行聚合操作，得到一个新的DStream。
reduceByKeyAndWindow(func,windowLength,slideInterval, [numTasks])	基于滑动窗口对（K，V）键值对类型的DStream中的值按K使用聚合函数func进行聚合操作，得到一个新的DStream。可以进行repartition操作。
reduceByKeyAndWindow(func,invFunc,windowLength, slideInterval, [numTasks])	更加高效的reduceByKeyAndWindow，每个窗口的reduce值，是基于前窗口的reduce值进行增量计算得到的；它会对进入滑动窗口的新数据进行reduce操作（func），并对离开窗口的老数据进行“逆向reduce” 操作(invFunc)。但是，只能用于“可逆的reduce函数” 必须启用“检查点”才能使用此操作
countByValueAndWindow(windowLength,slideInterval, [numTasks])	基于滑动窗口计算源DStream中每个RDD内每个元素出现的频次并返回DStream[(K,Long)]，其中K是RDD中元素的类型，Long是元素频次。与countByValue一样，reduce任务的数量可以通过一个可选参数进行配置。

2）updateStateByKey 操作

UpdateStateByKey 原语用于记录历史记录，Word Count 示例中就用到了该特性。若不用 UpdateStateByKey 来更新状态，那么每次数据进来后分析完成，结果输出后将不再保存。如输入：hello world，结果则为：(hello,1)(world,1)，然后输入 hello spark，结果则为 (hello,1)(spark,1)。也就是不会保留上一次数据处理的结果。

使用 UpdateStateByKey 原语用于需要记录的 State，可以为任意类型，如上例中即为 Optional<Integer>类型。

返回一个新状态的DStream,其中每个键的状态是根据键的前一个状态和键的新值应用给定函数func后的更新。这个方法可以被用来维持每个键的任何状态数据。

3.3 DStream 输出操作

Spark Streaming允许DStream的数据被输出到外部系统，如数据库或文件系统。由于输出操作实际上使transformation操作后的数据可以通过外部系统被使用，同时输出操作触发所有DStream的transformation操作的实际执行（类似于RDD操作）。以下表列出了目前主要的输出操作：

转换	描述
print()	在Driver中打印出DStream中数据的前10个元素。
saveAsTextFiles(prefix, [suffix])	将DStream中的内容以文本的形式保存为文本文件，其中每次批处理间隔内产生的文件以prefix-TIME_IN_MS[.suffix]的方式命名。
saveAsObjectFiles(prefix, [suffix])	将DStream中的内容按对象序列化并且以SequenceFile的格式保存。其中每次批处理间隔内产生的文件以prefix-TIME_IN_MS[.suffix]的方式命名。
saveAsHadoopFiles(prefix, [suffix])	将DStream中的内容以文本的形式保存为Hadoop文件，其中每次批处理间隔内产生的文件以prefix-TIME_IN_MS[.suffix]的方式命名。
foreachRDD(func)	最基本的输出操作，将func函数应用于DStream中的RDD上，这个操作会输出数据到外部系统，比如保存RDD到文件或者网络数据库等。需要注意的是func函数是在运行该streaming应用的Driver进程里执行的。