比特星河-CSDN博客

比特星河

码龄1年

2,574

总访问量
3

原创
12

粉丝
0

关注

IP 属地：重庆市

加入CSDN时间： 2025-06-08

个人简介：深耕大数据领域8年，现任国内某汽车品牌智能驾驶数据生产运营团队负责人，热衷大数据核心技术原理剖析，欢迎关注讨论，共同进步。

查看详细资料

个人成就

获得24次点赞
内容获得0次评论
获得52次收藏
博客总排名434,936名
原力等级

原力等级

0

原力分

25

本月获得

0

TA关注的专栏 0

TA关注的收藏夹 0

TA关注的社区 0

TA参与的活动 0

兴趣领域设置

Python

python
大数据

oraclejsonsqlmysqlhadoophivemongodbsparkflink数据库sqoop大数据数据仓库

创作活动更多

「谁说嵌入式只是调包和焊板子？」—— 2026嵌入式全栈技术征锋令

谁说嵌入式只会“Ctrl+C 调包”和“拿电烙铁焊板子”？2026嵌入式全栈技术征锋令正式启幕！本次活动专为硬核硬件/软件开发者打造，无论你是刚玩转裸机外设的萌新，还是精通RTOS调度、死磕底层驱动的行业老手，亦或是执掌系统架构的大神，这里都是你证明实力的舞台！拒绝表面功夫，每一行代码，都有撬动硬件的力量！晒出你的硬核工程实战，为嵌入式开发者的全栈硬实力正名！

210人参与去参加

更多

数据开发高频面试题之维度建模

维度建模是数据仓库设计的核心基础，其本质是在业务数据之上构建一个高效的分析体系。通过事实表（记录业务事件）与维度表（描述业务背景）的组合，形成星型、雪花或星座模型。维度建模的关键在于：选择业务过程、声明数据粒度、确定维度和事实，最终实现查询性能优化和业务可读性。相比业务系统的原始数据，维度建模需要进行数据标准化（如统一ID格式）、历史数据处理（如拉链表）和分析属性扩展（如年龄分组）。良好的维度建模能消除数据冗余，确保一致性，同时为上层分析提供灵活高效的基础，是数据开发真正的"硬实力"。

博文更新于 2025.07.15 ·

数据开发高频面试题之拉链表详解

将dwd层的历史拉链表数据和ods层当日新增及更新的数据LEFT JOIN左关联，利用左关联的特性，如果能关联上那么说明历史拉链表中的这条数据当日的维度数据是有变化的，那么我们就需要将其end_date更新为当前时间的前一天（今天处理的是昨天的数据，那么其过期时间也应该为前一天）：当维度表中的某个属性（如客户的地址、产品的价格、员工的部门、订单的状态等）发生变化时，不直接覆盖更新原有记录，而是插入一条新的记录，同时更新旧记录的结束时间，使其标记为失效。精确的历史追踪：这是最主要的作用。

博文更新于 2025.07.15 ·

MapReduce高频面试题详解

MR是大数据核心计算框架，不管是Hive、Spark，还是其他的工具，底层本质都是基于类似MR的分而治之的理念来工作的，在面试中本问到的概率不说百分之百，也有七八成，不仅仅是整个流程，还有底层的优化手段都是基于此展开的。所以切片的数量取决于block块的数量，以及文件的大小。总体数据量过大：如果Map 输出的中间数据量非常大，那么在 Shuffle 过程中，无论是在 Map 端进行数据分区、排序、溢写，还是在 Reduce 端拉取、合并数据，都需要处理大量的数据，这必然会消耗更多的时间和资源。

博文更新于 2025.06.08 ·