【翻译】Flink和Spark性能对比

最新推荐文章于 2026-02-04 21:18:46 发布

翻译最新推荐文章于 2026-02-04 21:18:46 发布 · 454 阅读

·

0

·

本内容遵循CC 4.0 BY-SA版权协议

原文链接：https://yahooeng.tumblr.com/post/135321837876/benchmarking-streaming-computation-engines-at

标签

#flink #spark #大数据

大数据专栏收录该内容

2 篇文章

订阅专栏

该博客对比了Flink和Spark在处理广告业务流数据时的性能。测试场景涉及从Kafka读取JSON事件，数据过滤、字段映射，从Redis查询并关联数据，以及按广告ID进行窗口计数。Flink在单核吞吐量上优于Spark，达到400万记录每秒，而Spark为250万记录每秒。

Flink和Spark性能对比

Benchmark设计

针对一个简单的广告应用。应用涉及广告促销活动业务，每个业务有很多广告数据。
流处理平台需要从kafka读取JSON格式的事件，标识相关事件，按促销业务窗口读取关联事件，并保存到Redis中。
具体操作步骤（和流程图对应）：

从kafka读取事件数据
反序列化Json字符串
去除无关联的事件数据（基于事件类型域）
关联字段投射(广告ID，事件时间)
依据广告ID查询其促销活动ID（这部分数据从Redis读取），关联广告事件数据
对每个促销活动开一个窗口，窗口内对事件计数，并将每个窗口计数结果，以及更新时间戳一起存储在 Redis 中。此步骤要求能够处理迟到的事件。

输入数据schema:

• user_id: UUID
• page_id: UUID
• ad_id: UUID
• ad_type: String in {banner, modal, sponsored-search, mail, mobile}
• event_type: String in {view, click, purchase}
• event_time: Timestamp
• ip_address: String

原文链接：

链接: tumblr文章
https://yahooeng.tumblr.com/post/135321837876/benchmarking-streaming-computation-engines-at

吞吐量

• Spark：250万记录单核每秒 (摘自Databricks 报告)
• Flink： 400万记录单核每秒
在这里插入图片描述

原文链接：

链接: ververica文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。