前面已经学习了flink的批处理WordCount,现在来学习下flink的流处理WordCount,其实和批处理差不多,区别在于获取执行环境方法和接收的数据方式不一样。批处理通过ExecutionEnvironment.getExecutionEnvironment方法获取批处理执行环境,再通过readTextFile("inputParth")方法获取文件,流处理通过StreamExecutionEnvironment.getExecutionEnvironment获取流处理执行环境,再通过socketTextStream(host, port)获取socket流数据。后续的统计处理逻辑一致。
先引入pom.xml文件
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>org.fuyun</groupId>
<artifactId>flinkLearning</artifactId>
<version>1.0-SNAPSHOT</version>
<repositories>
<repository>
<id>aliyun</id>
<url>http://repository.apache.org/content/groups/snapshots/</url>
</repository>
<repository>
<id>cloudera</id>

本文介绍了如何使用Apache Flink进行流处理,以WordCount为例,讲解了从引入pom.xml依赖,到编写流处理代码,再到在IDEA中配置参数执行的全过程。核心内容包括获取流处理执行环境、读取socket数据、统计处理逻辑及设置并行度。通过在虚拟机上运行nc命令与IDEA程序交互,展示了实时统计单词出现次数的功能。

3327

被折叠的 条评论
为什么被折叠?



