Flink系列-5、Flink DataSet API介绍

最新推荐文章于 2025-09-17 18:00:00 发布

原创最新推荐文章于 2025-09-17 18:00:00 发布 · 980 阅读

·

0

·

标签

#flink #大数据 #apache

大数据专栏专栏收录该内容

83 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了Flink的DataSetAPI编程模型，包括基本步骤，如获取执行环境、创建数据集、指定并行度以及数据输出。文中详细讲解了基于本地集合和文件的数据源，如从元素、List、Set、Queue中创建数据集，以及读取本地文件、HDFS、CSV和压缩文件的方法。此外，还提到了如何设置并行度来优化执行效率。

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

大数据系列文章目录

官方网址：https://flink.apache.org/

学习资料：https://flink-learning.org.cn/
在这里插入图片描述

目录

Flink DataSet API编程模型
Flink DataSet API编程基本步骤
输入数据集Data Source

Flink DataSet API编程模型

在这里插入图片描述

Flink DataSet API编程基本步骤

获取执行环境（ExecutionEnvironment）
加载/创建初始数据集
对数据集进行各种转换操作（生成新的DataSet）
指定将计算的结果输出
提交任务（可选）

输入数据集Data Source

Data Sources 是什么呢？就字面意思其实就可以知道数据来源。
Flink 做为一款流式计算框架，它可用来做批处理，也可以用来做流处理，这个 Data Sources 就是数据的来源地。
flink在批处理中常见的source主要有两大类。

基于本地集合的source（Collection-based-source）
基于文件的source（File-based-source）

基于本地集合的source（Collection-

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

技术武器库 一句真诚的谢谢，胜过千言万语

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。