1. hive优化
2. 数据倾斜
3. 小文件问题
4. 项目中用到的重点指标(至少3个),要非常熟悉,能说出怎么建的表,怎么算的
5. MySQL事务底层原理,MVCC
6. 拉链表,累积型事务事实表
7. 数据治理项目,离线数仓,实时数仓
8. 拉链表9999分区丢失怎么办?用ODS层重新算一遍
9. JVM调优,组成,堆的大小,新生代和老年代大小,比例,GC回收器选择,垃圾标记算法,垃圾回收算法
1.自我介绍
2.你为什么要用kafka
3.简单介绍一下kafka 优缺点
4.你为什么不用其他的组件,技术选型,对比
5.kafka怎么部署的,几台
6.kafka有一台挂了怎么办
7.leader怎么选的
8.kafka监控
9.深入,架构,工作流程
10.常见问题: 数据丢失,数据重复,吞吐量
11.kafka怎么调优,遇到过什么问题,怎么解决的,
12.场景题
13.如果其他技术,流程如上
公共问题:
1.一致性,幂等性
2.数据丢失,数据重复
本文探讨了Hive的性能优化策略,包括处理数据倾斜和小文件问题。同时,深入解析了MySQL的事务底层原理,特别是MVCC机制。还介绍了Kafka在消息队列中的应用,分析了其优缺点及与其他组件的技术选型对比,以及Kafka集群的部署、故障处理和性能调优方法。此外,讨论了数据治理项目中的离线和实时数仓建设,以及一致性与幂等性的重要性。

3万+

被折叠的 条评论
为什么被折叠?



