版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
官方网址:https://flink.apache.org/
学习资料:https://flink-learning.org.cn/

目录
Flink DataSet API编程模型

Flink DataSet API编程基本步骤
- 获取执行环境(ExecutionEnvironment)
- 加载/创建初始数据集
- 对数据集进行各种转换操作(生成新的DataSet)
- 指定将计算的结果输出
- 提交任务(可选)
输入数据集Data Source
Data Sources 是什么呢?就字面意思其实就可以知道 数据来源 。
Flink 做为一款流式计算框架,它可用来做批处理,也可以用来做流处理,这个 Data Sources 就是数据的来源地。
flink在批处理中常见的source主要有两大类。
- 基于本地集合的source(Collection-based-source)
- 基于文件的source(File-based-source)
本文介绍了Flink的DataSetAPI编程模型,包括基本步骤,如获取执行环境、创建数据集、指定并行度以及数据输出。文中详细讲解了基于本地集合和文件的数据源,如从元素、List、Set、Queue中创建数据集,以及读取本地文件、HDFS、CSV和压缩文件的方法。此外,还提到了如何设置并行度来优化执行效率。
订阅专栏 解锁全文
476

被折叠的 条评论
为什么被折叠?



