比特星河
码龄1年
求更新 关注
提问 私信
  • 博客:2,574
    2,574
    总访问量
  • 3
    原创
  • 12
    粉丝
  • 0
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:重庆市
加入CSDN时间: 2025-06-08

个人简介:深耕大数据领域8年,现任国内某汽车品牌智能驾驶数据生产运营团队负责人,热衷大数据核心技术原理剖析,欢迎关注讨论,共同进步。

博客简介:

2501_92371827的博客

查看详细资料
个人成就
  • 获得24次点赞
  • 内容获得0次评论
  • 获得52次收藏
  • 博客总排名434,936名
  • 原力等级
    原力等级
    0
    原力分
    25
    本月获得
    0
创作历程
  • 3篇
    2025年
成就勋章

TA关注的专栏 0

TA关注的收藏夹 0

TA关注的社区 0

TA参与的活动 0

兴趣领域 设置
  • Python
    python
  • 大数据
    oraclejsonsqlmysqlhadoophivemongodbsparkflink数据库sqoop大数据数据仓库
创作活动更多

「谁说嵌入式只是调包和焊板子?」—— 2026嵌入式全栈技术征锋令

谁说嵌入式只会“Ctrl+C 调包”和“拿电烙铁焊板子”?2026嵌入式全栈技术征锋令正式启幕! 本次活动专为硬核硬件/软件开发者打造,无论你是刚玩转裸机外设的萌新,还是精通RTOS调度、死磕底层驱动的行业老手,亦或是执掌系统架构的大神,这里都是你证明实力的舞台! 拒绝表面功夫,每一行代码,都有撬动硬件的力量!晒出你的硬核工程实战,为嵌入式开发者的全栈硬实力正名!

210人参与 去参加
  • 最近
  • 文章
  • 专栏
  • 代码仓
  • 资源
  • 收藏
  • 关注/订阅/互动
更多
  • 最近

  • 文章

  • 专栏

  • 代码仓

  • 资源

  • 收藏

  • 关注/订阅/互动

  • 社区

  • 帖子

  • 问答

  • 课程

  • 视频

搜索 取消

数据开发高频面试题之维度建模

维度建模是数据仓库设计的核心基础,其本质是在业务数据之上构建一个高效的分析体系。通过事实表(记录业务事件)与维度表(描述业务背景)的组合,形成星型、雪花或星座模型。维度建模的关键在于:选择业务过程、声明数据粒度、确定维度和事实,最终实现查询性能优化和业务可读性。相比业务系统的原始数据,维度建模需要进行数据标准化(如统一ID格式)、历史数据处理(如拉链表)和分析属性扩展(如年龄分组)。良好的维度建模能消除数据冗余,确保一致性,同时为上层分析提供灵活高效的基础,是数据开发真正的"硬实力"。
原创
博文更新于 2025.07.15 ·
1008 阅读 ·
5 点赞 ·
0 评论 ·
19 收藏

数据开发高频面试题之拉链表详解

将dwd层的历史拉链表数据和ods层当日新增及更新的数据LEFT JOIN左关联,利用左关联的特性,如果能关联上那么说明历史拉链表中的这条数据当日的维度数据是有变化的,那么我们就需要将其end_date更新为当前时间的前一天(今天处理的是昨天的数据,那么其过期时间也应该为前一天):当维度表中的某个属性(如客户的地址、产品的价格、员工的部门、订单的状态等)发生变化时,不直接覆盖更新原有记录,而是插入一条新的记录,同时更新旧记录的结束时间,使其标记为失效。精确的历史追踪:这是最主要的作用。
原创
博文更新于 2025.07.15 ·
1024 阅读 ·
7 点赞 ·
0 评论 ·
18 收藏

MapReduce高频面试题详解

MR是大数据核心计算框架,不管是Hive、Spark,还是其他的工具,底层本质都是基于类似MR的分而治之的理念来工作的,在面试中本问到的概率不说百分之百,也有七八成,不仅仅是整个流程,还有底层的优化手段都是基于此展开的。所以切片的数量取决于block块的数量,以及文件的大小。总体数据量过大:如果Map 输出的中间数据量非常大,那么在 Shuffle 过程中,无论是在 Map 端进行数据分区、排序、溢写,还是在 Reduce 端拉取、合并数据,都需要处理大量的数据,这必然会消耗更多的时间和资源。
原创
博文更新于 2025.06.08 ·
543 阅读 ·
12 点赞 ·
0 评论 ·
15 收藏