Skip to content

Commit

Permalink
minor style fix
Browse files Browse the repository at this point in the history
  • Loading branch information
lw-lin committed Mar 21, 2016
1 parent 3143c8f commit 13bbab2
Showing 1 changed file with 2 additions and 2 deletions.
Original file line number Diff line number Diff line change
Expand Up @@ -37,13 +37,13 @@ Spark Streaming 与 Spark Core 的关系可以用下面的经典部件图来表

- (1) 一个**静态**的 RDD DAG 的**模板**,来表示处理逻辑;

- (2) 一个**动态****工作控制器**,将连续的 streaming data 切分数据片段,并按照模板**复制**出新的 RDD DAG 的**实例**,对数据片段进行处理
- (2) 一个**动态****工作控制器**,将连续的 streaming data 切分数据片段,并按照模板**复制**出新的 RDD DAG 的**实例**,对数据片段进行处理

![image](0.imgs/032.png)

第三步,我们回过头来看 streaming data 本身的产生。Hadoop MapReduce, Spark RDD API 进行批处理时,一般默认数据已经在 HDFS, HBase 或其它存储上。而 streaming data —— 比如 twitter 流 —— 又有可能是在系统外实时产生的,就需要能够将这些数据导入到 Spark Streaming 系统里,就像 Apache Storm 的 Spout,Apache S4 的 Adapter 能够把数据导入系统里的作用是一致的。所以,我们将需要:

- (3) 原始数据的产生和导入
- (3) 原始数据的产生和导入

第四步,我们考虑,有了以上 (1)(2)(3) 3 部分,就可以顺利用 RDD API 处理 streaming data 了吗?其实相对于 batch job 通常几个小时能够跑完来讲,streaming job 的运行时间是 +∞(正无穷大)的,所以我们还将需要:

Expand Down

0 comments on commit 13bbab2

Please sign in to comment.