【Flink入门】Flink流处理WordCount

最新推荐文章于 2026-04-24 09:46:05 发布

原创

最新推荐文章于 2026-04-24 09:46:05 发布 · 504 阅读

本文介绍了如何使用Apache Flink进行流处理，以WordCount为例，讲解了从引入pom.xml依赖，到编写流处理代码，再到在IDEA中配置参数执行的全过程。核心内容包括获取流处理执行环境、读取socket数据、统计处理逻辑及设置并行度。通过在虚拟机上运行nc命令与IDEA程序交互，展示了实时统计单词出现次数的功能。

前面已经学习了flink的批处理WordCount，现在来学习下flink的流处理WordCount，其实和批处理差不多，区别在于获取执行环境方法和接收的数据方式不一样。批处理通过ExecutionEnvironment.getExecutionEnvironment方法获取批处理执行环境，再通过readTextFile("inputParth")方法获取文件，流处理通过StreamExecutionEnvironment.getExecutionEnvironment获取流处理执行环境，再通过socketTextStream(host, port)获取socket流数据。后续的统计处理逻辑一致。

先引入pom.xml文件

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>org.fuyun</groupId>
    <artifactId>flinkLearning</artifactId>
    <version>1.0-SNAPSHOT</version>

    <repositories>
        <repository>
            <id>aliyun</id>
            <url>http://repository.apache.org/content/groups/snapshots/</url>
        </repository>
        <repository>
            <id>cloudera</id>