kafka 设置topic的数据时间为log日志生成的时间

最新推荐文章于 2026-05-18 06:56:50 发布

原创最新推荐文章于 2026-05-18 06:56:50 发布 · 2.2k 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#kafka #分布式

收录于

本文探讨了在处理历史数据时，为何在Flink中切换Kafka的message.timestamp.type到LogAppendTime，以及这种改变如何帮助过滤脏数据。通过理解生成时间戳的意义，学习何时选择LogAppendTime以确保有效的时间比较和数据准确性。

在kafka的topic Configs中有一个设置：

message.timestamp.type

修改topic config 参考：

kafka topic config 参数_Sara2018的博客-CSDN博客_kafka topic 参数

它有2个参数：

分别是：CreateTime --kafka创建数据的时间

和：LogAppendTime --日志生成的时间，这个时间是生成日志所在的机器的时间

kafka的topic configs默认是createtime

什么时候设置成LogAppendTime？(即适用的场景)

flink处理历史数据时，事件时间只能与当前的时间作比较，及小于现在的时间都参与计算，大于的视为脏数据过滤掉。这样的话，我们没有办法知道对于之前的某个时间，数据是否为脏数据，因为kafka timestamp 都是现在的时间。

而设置成LogAppendTime之后，kafka timestamp就是那条数据产生是的机器时间戳，这样每条数据除了事件时间，还有产生这条数据的时间。通过事件时间<kafka timestamp 过滤数据就可以把脏数据过滤掉。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

码爸

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

kafka时间戳的详解及使用

未来在这儿的专栏

02-01

3578

Kafka从0.10.0.0版本起，在消息内新增加了个timestamp字段，在Kafka 0.10.1.0以前(不包含0.10.1.0)，对于一个Topic而言，其Log Segment是由一个.log文档和一个.index文档组合而成，分别用来存储具体的消息数据和对应的偏移量。

参与评论您还未登录，请先登录后发表或查看评论

kafka命令行操作（topic增删查改、修改分区数、发送消息、消费消息、查看消费者组、更新消费者组中topic的偏移位置）

最新发布

weixin_30555515的博客

05-18

395

本文详细介绍了在XIAO ESP32S3开发板上部署FOMO物体检测模型的完整流程与性能优化技巧。通过实测数据展示该轻量级模型在嵌入式设备上的表现，包括20FPS的检测速度、78%的准确率以及120mA的低功耗特性，并提供了内存管理、分辨率调整等实用优化方案，适合智能门锁、工业检测等物联网应用场景。

KafkaStream时间戳问题CreateTime = -1引起的程序中断

共享，共进步

08-24

1072

KafkaStream时间戳问题CreateTime = -1引起的程序中断 Exception in thread “app-8835188a-e0a0-46da-ac2a-6820ec197628-StreamThread-1” org.apache.kafka.streams.errors.StreamsException: Input record ConsumerRecord(topic = raw_103, partition = 1, offset = 7032668, CreateTime

Kafka拉取某一个时间段內的消息

xo19882011的专栏

09-01

5734

一般来说我们都使用Kafka来记录用户的操作记录以便后续分析。但是通常使用的时候需要按天来统计每天的去重用户数、点击量之类的。这个时候如果直接拉某个topic的数据的话，就需要判断每个消息的时间戳，还要兼顾把所有的Partition都拉完才能保证数据的完整。因此如果能只拉取某一个时间段内的消息，就能极大的简化后续的处理逻辑。拉取时段内消息实现为了实现这个目的借助于根据时间戳获取Partition内部偏移的方法，然后逐个拉取所有的Partition的消息。实验例子，python+confluenc

kafka中的消息(topic)和日志(log)

swadian2008的博客

03-28

1万+

目录一、消息和日志的关系二、查看Kafka主题(Topic)情况三、查看Kafka数据存储(Log)情况一、消息和日志的关系可以理解Topic是一个类别的名称，同类消息发送到同一个Topic下面。对于每一个Topic，下面可以有多个分区(Partition)日志文件: Partition是一个有序的message序列(消息队列)，这些message按顺序添加到一个叫做commit log的文件中。每个partition中的消息都有一个唯一的编号，称之为offset，用来唯一标示某个

kafka---topic详解

qq_41768644的博客

04-17

2500

kafka topic详解 topic partition 架构详解 log 日志文件详解

Kafka日志及Topic数据清理

语不惊人死不休

12-26

1万+

由于项目原因，最近经常碰到Kafka消息队列拥堵的情况。碰到这种情况为了不影响在线系统的正常使用，需要大家手动的清理Kafka Log。但是清理Kafka Log又不能单纯的去删除中间环节产生的日志，中间关联的很多东西需要手动同时去清理，否则可能会导致删除后客户端无法消费的情况。在介绍手动删除操作之前，先简单的介绍一下Kafka消费Offset原理。一、Kafka消费Offse

Time Semantics

weixin_33841503的博客

08-23

335

2019独角兽企业重金招聘Python工程师标准>>> ...

Kafka日志存储

通往神秘的道路的专栏

11-14

2360

1、文件目录布局 Kafka中的消息是以主题为基本单位进行归类的,各个主题在逻辑上相互独立。每个主题又可以分为一个或多个分区,分区的数量可以在主题创建的时候指定,也可以在之后修改。每条消息在发送的时候会根据分区规则被追加到指定的分区中,分区中的每条消息都会被分配一个唯一的序列号,也就是通常所说的偏移量(offset)。如果分区规则设置得合理,那么所有的消息可以均匀地分布到不同的分区中,这样就...

kafka为什么有的消息的时间戳的值是-1

程序猿的樊笼

01-14

2121

kafka消息的格式有多个版本，在老版本中，是没有时间戳这个字段的。按照文档说明，在0.11之前的版本中，消息的发送和存储都是在消息集合中，每条消息都有相关元数据信息，这时候消息格式有两个版本：版本0和版本1，如下：

Kafka生产者详解

日常分享数据分析开发、编程语言内容

03-30

2057

Kafka生产者详解

Kafka消息时间戳(kafka message timestamp)

weixin_33912453的博客

11-10

3287

最近碰到了消息时间戳的问题，于是花了一些功夫研究了一下，特此记录一下。 Kafka消息的时间戳在消息中增加了一个时间戳字段和时间戳类型。目前支持的时间戳类型有两种： CreateTime 和 LogAppendTime 前者表示producer创建这条消息的时间；后者表示broker接收到这条消息的时间(严格来说，是leader broker将这条消息写入到log的时间) 为什么要加入...

一文看懂Kafka消息格式的演变

朱小厮的博客

05-13

2万+

摘要对于一个成熟的消息中间件而言，消息格式不仅关系到功能维度的扩展，还牵涉到性能维度的优化。随着Kafka的迅猛发展，其消息格式也在不断的升级改进，从0.8.x版本开始到现在的1.1.x版本，Kafka的消息格式也经历了3个版本。本文这里主要来讲述Kafka的三个版本的消息格式的演变，文章偏长，建议先关注后鉴定。 Kafka根据topic（主题）对消息进行分类，发布到Kafka集群的每条...

Kafka在Linux环境下搭建过程

weixin_30407613的博客

12-16

207

准备工作　　Kafka集群是把状态保存在Zookeeper中的，首先要搭建Zookeeper集群。由于我们之前的分布式系统中已经安装zookeeper服务，这里不进行zookeeper安装教程以及应用教程图解。需要注意的是：Zookeeper集群的工作是超过半数才能对外提供服务，3台中超过两台超过半数，允许1台挂掉，是否可以用偶数，其实没必要。如果有四台那么挂掉一台还剩下三台服务器，如果在挂...

k8s之kafka集群重启耗时太长问题

weixin_42566359的博客

10-09

2368

k8s之kafka集群重启耗时太长问题

Kafka—topic的查询和创建

Andya_net的博客

03-26

1462

记录常用的kafka常用的topic相关命令查看topic列表 [root@shtest01 ~]# /usr/lib/kafka/bin/./kafka-topics.sh --list --zookeeper localhost:2181/kafka 创建topic [root@shtest01 ~]# /usr/lib/kafka/bin/./kafka-topics.sh --crea...

kafka添加消息写入partition时间戳的方法

sirius_kb的博客

08-19

1113

1、修改kafka的属性： kafka-topics --alter --topic topicname --zookeeper localhost:2181/kafka --config message.timestamp.type=LogAppendTime 2、在消费者命令行工具中打印LogAppendTime： kafka-console-consumer --bootstap-server localhost:9092 --topic topicname --property print