[Spark、hadoop]spark Streaming的核心DStream

Spark Streaming的核心是DStream

一、DStream简介

二．DStream编程模型

三．DStream转换操作

Spark Streaming的核心是DStream

一、DStream简介

1.SparkStreaming提供了一个高级抽象的流，即DStream(离散流)。

2.DStream的内部结构是由一系列连续的RDD组成，每个RDD都是一小段由时间分隔开来的数据集。

二．DStream编程模型

三．DStream转换操作

transform（）

1．在3个节点启动zookeeper集群服务

$ zkServer.sh start

2．启动kafka（3个节点都要）

$ /opt/module/kafka/bin/kafka-server-start.sh /opt/module/kafka/config/server.properties

3．克隆会话，jps查看是否有Kafka（3个节点）

4．进入/etc/resolv.conf加入如下内

vi resolv.conf

Nameserver 114.114.114.114

5．下载nc

$yum install nc

6．启动服务端且监听Socket服务，并输入Iamlearningsparkstreamingnow

$nc -lk 9999

Iamlearningsparkstreamingnow（回车）

7．创建Maven项目, 打开右上角的Fileànewàproject

8．选择mavenànext

9．填写groupld、artifctldànext

10．添加依赖

org.scala-langscala-library2.11.8org.apache.sparkspark-core_2.112.0.2org.apache.sparkspark-streaming_2.112.0.2mysqlmysql-connector-java5.1.38org.apache.sparkspark-streaming-kafka-0-8_2.112.0.2src/main/scalasrc/test/scala

11 在main目录下创建scala文件，右击ànewàdirectory，命名为Scala

12 右击Scala文件，选择【MarkDirectoryas】à【sourcesroot】表示将文件夹标记为资源文件夹类型（存放项目源码文件）

13 同样在test目录下创建scala文件，右击ànewàdirectory，命名为Scala

14 右击Scala文件，选择【MarkDirectoryas】à【testsourcesroot】表示将文件夹标记为测试资源文件夹类型（存放开发中测试的源码文件）

15 右击main下的Scala文件先创建一个package并命名为cn.itcast

16 编写TransformTest.Scala

注意红框内容！！！

17 运行程序，可以看到控制台输出结果

UpdateStateKey()

1编写UpdateStateKeyTest.scala

注意红框内容！！！

2 运行程序并在master 9999 端口不断输入单词，观察到控制台输出内容

$nc -lk 9999

Hadoop spark itcast(回车)

Spark itcast

[Spark、hadoop]spark Streaming的核心DStream

Spark Streaming的核心是DStream

一、DStream简介

二．DStream编程模型

三．DStream转换操作

最新关注

热文推荐

mysql8.0 用户管理（角色、授权）

code 架构

SaaS 架构实现理论（二）多租户/高性能多租户

AI又进化了，突破性革命来了

学生宿舍管理系统设计与实现(源码+数据库+文档)

教你如何用CSS修改图片颜色

[Spark、hadoop]spark Streaming的核心DStream

Spark Streaming的核心是DStream

一、DStream简介

二．DStream编程模型

三．DStream转换操作

相关文章

最新关注

热文推荐