025、分布式计算实战：Spark Core与Spark SQL

最新推荐文章于 2026-06-23 20:51:17 发布

原创

最新推荐文章于 2026-06-23 20:51:17 发布 · 976 阅读

标签

#spark #sql #ajax

收录于

从一次深夜调试说起

上周三凌晨两点，集群告警突然响了。一个跑了六小时的Spark作业卡在99%，最后一个stage的200个task里总有那么三五个一直在挣扎。日志里满是FetchFailedException和ExecutorLost的报错，数据倾斜那熟悉的味道隔着屏幕都能闻到。这种场景你肯定也遇到过——数据分布不均匀，少数几个key扛了几千万条记录，几个倒霉的executor内存直接撑爆。今天我们就聊聊怎么用Spark Core和Spark SQL解决这类实战问题。

Spark Core：理解你的并行引擎

先看段真实的生产代码，这是出问题的那个stage的简化版：

val rawRDD = sc.textFile("hdfs://data/logs/*.gz")
  .map(line => parseLog(line))  // 解析日志，返回(key, value)
  .filter(_ != null)  // 过滤脏数据

// 问题就出在这个groupByKey上
val groupedRDD = rawRDD.groupByKey()  // 这里踩过坑：groupByKey默认不进行map端合并
  .mapValues(values => processBatch(values))

groupedRDD.saveAsTextFile("hdfs://output/result")

看起来挺干净是吧？问题在于groupByKey()会把某个key对应的所有values都拉到同一个节点上做聚合。如果某个key特别热，比如user_id=0（默认用户）或者city=unknown，那个节点就惨了。

改进方案一：用reduceByKey替代

// 先做map端局部聚合，大幅减少shuffle

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

xiaoyaohou11

关注关注

15
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

【信息科学与工程学】【安全领域】第一百四十二篇零信任网络解决方案中的算法04

weixin_49199313的博客

05-18

1072

对于节点 i，有功和无功功率平衡方程为： Pi=Vi∑j=1NVj(Gijcosθij+Bijsinθij)， Qi=Vi∑j=1NVj(Gijsinθij−Bijcosθij)。下风向某点 (x,y,z)的浓度 C为： C=2πuσyσzQexp(−2σy2y2)[exp(−2σz2(z−H)2)+exp(−2σz2(z+H)2)]，其中 Q是源强， u是风速， H是有效源高， σy,σz是水平和垂直扩散参数。

参与评论您还未登录，请先登录后发表或查看评论

数据科学工具链实战地图：从NumPy到Hugging Face的避坑指南

weixin_30698527的博客

06-06

300

数据科学工具链并非孤立库的堆砌，而是围绕数据流动构建的协同系统。其底层原理植根于内存管理（如NumPy的strides与广播机制）、计算图范式（PyTorch动态图 vs TensorFlow静态图）和分布式调度（Dask延迟计算）。技术价值体现在工程鲁棒性——避免Pandas链式赋值导致的数据静默丢失、XGBoost tree_method选择引发的3.7倍性能差异、或Hugging Face tokenizer未设device造成的GPU空转。典型应用场景覆盖金融风控中的统计显著性验证（Statsmod

PySpark + YOLOv8 分布式图像目标检测实战｜大数据与 AI 融合教学项目

2301_79652681的博客

06-21

271

本文提出了一种结合PySpark分布式计算框架与YOLOv8目标检测算法的通用分布式图像推理流水线。项目包含三个核心环节：数据集格式转换（VOC转YOLO格式）、模型训练与分布式批量推理。通过使用mapPartitionsWithIndex分区算子优化模型加载效率，避免重复初始化。提供了完整的可复现代码，支持在Ubuntu系统下快速部署。主要技术亮点包括：1) 大数据与深度学习的融合开发流程；2) VOC到YOLO格式转换与数据集分层划分；3) 分布式推理与结果可视化统计。该项目具有通用性，可迁移至任意图像

Spark SQL中数据存储格式与压缩格式

qq_37771475的博客

06-23

115

描述数据的字段名、类型、默认值等，人类可读。

PySpark类库介绍

qq_43494013的博客

06-17

263

PySpark类库介绍

大数据内存计算引擎Spark万字入门｜从Hadoop痛点到Spark核心原理全梳理

2301_79652681的博客

06-21

365

本文系统介绍了大数据内存计算引擎Spark的核心原理与技术架构。首先从Hadoop生态的痛点切入，分析了MapReduce因磁盘IO导致的性能瓶颈，引出Spark诞生的背景。随后详细解析了Spark的四大特点（快速、易用、通用、兼容）、五大核心组件（Core、SQL、Streaming、MLlib、GraphX）以及四种运行模式（Local、Standalone、YARN、K8s）。文章重点阐述了Spark底层RDD的三大特性（不可变、分区、并行计算）和集群架构中的四大角色（Driver、Master、Wo

Spark共享变量完整详解（广播变量+累加器）

2301_79652681的博客

06-23

150

Spark共享变量详解在分布式计算中，普通变量因Task独立副本导致数据无法全局共享。Spark提供两类专用共享变量：广播变量：高效分发只读数据（如维表、配置），每个Executor存一份供所有Task共享，避免重复传输。需注意广播对象应不可变，使用后及时释放内存。累加器：支持分布式全局聚合（如计数、求和），Executor通过add()增量更新，结果最终汇总至Driver。需避免在算子内创建或读取累加器值，防止统计失真。典型场景：广播变量适用于大维表关联（如地域映射），累加器适合分布式指标统计。自

（AI总结版）大数据开发理论/架构理解：Hive、Spark SQL、PySpark、Java Spark、Flink、JDBC、Redis、UDF

Irene1991的博客

06-22

529

本文系统解析大数据开发中15个核心概念差异，涵盖Hive与Spark的关系、SparkSQL与HiveSQL的区别、PySpark与SparkSQL的协作、Spark与Flink的选型等。

Hadoop学习教程，从入门到精通， Spark 完整知识点详解(14）

qq_45746668的博客

06-21

255

Apache Spark是一个快速、通用的大数据分析引擎，核心特点包括内存计算(比MapReduce快10-100倍)、多语言支持和一站式解决方案(SQL/流处理/机器学习/图计算)。Spark架构包含Driver程序(主控节点)、Cluster Manager(资源调度)和Worker节点(执行器Executor)。与MapReduce相比，Spark通过内存计算和DAG优化显著提升性能。

Hive on Tez、Hive on Spark 开发配置，性能调优：执行引擎切换、资源分配与参数优化

Irene1991的博客

06-21

240

摘要： Hive on Tez/Spark在银行大数据场景的性能调优需围绕执行引擎切换、资源分配与参数优化展开。Tez调优核心：1）调整tez.grouping.max-size和Reducer数量平衡并行度；2）合理配置容器内存与JVM堆占比（建议0.7-0.8）；3）启用矢量化查询、CBO优化及MapJoin加速。Spark调优重点：1）按YARN资源动态分配Executor内存与核心数；2）优化spark.sql.shuffle.partitions减少小文件；3）调整MapJoin阈值并开启动态分区

Spark SQL 基于DataSource方式读取数据时文件切分逻辑详解

wubinghua15180087610的博客

06-17

424

Spark SQL基于DataSource方式文件切分逻辑详解

LATERAL VIEW POSEXPLODE ~ Hive/Spark SQL

wangkai6666的博客

06-23

238

LATERAL VIEW：侧视图，用来将数组 / Map 等集合字段炸开多行，实现一对多关联posexplode()：爆炸函数，和 explode 类似，但同时返回下标位置 + 元素值LATERAL VIEW posexplode(数组字段) AS pos, val作用：把数组拆成多行，额外带出每个元素在数组中的索引下标。

Spark on YARN 作业提交时常用的参数

qq_37771475的博客

06-22

192

在 Spark 1.6 以后，此机制已被更优的排序式 Shuffle 取代，若仍在使用，可能是为了兼容历史版本。读取 Parquet 文件时，对于 INT96 格式的时间戳，使用旧版时区偏移方式。相比默认的 LZ4，Zstd 压缩率更高，能显著减少 Shuffle 传输量，代价是轻微增加 CPU。这是动态资源分配的前提，保证 Executor 被回收时，其上产生的 Shuffle 数据仍能被其他节点读取。，即遵循 Spark 2.x 的宽松规则（允许一些默认禁止的类型强转），用于兼容老数据。

单双引号在 Oracle、MySQL、Hive SQL、Spark SQL中的区别总结（开发最佳实践：字符串永远只用单引号，列名/表名统一小写+下划线）

Irene1991的博客

06-23

SQL引号使用规范与跨数据库最佳实践

Spark RDD依赖关系全解：窄依赖、宽依赖、Stage划分原理

最新发布

2301_79652681的博客

06-23

329

本文深入解析Spark任务调度的核心机制——RDD依赖关系。通过WordCount案例，详细阐述窄依赖（1父分区对1子分区，无Shuffle）与宽依赖（1父分区对多子分区，触发Shuffle）的底层逻辑差异，并配以Mermaid流程图直观展示。重点讲解DAG的Stage划分规则：以宽依赖为边界切分Stage，窄依赖合并执行。同时揭示Task生成机制（Task数=末层RDD分区数），并总结从DAG构建到Task执行的完整流程。最后提供面试常见思考题及参考答案，帮助读者掌握Spark分布式执行的底层原理。

TDengine SQL INSERT — 单行、批量、跨表与子表自动建表

TDengine(老段）专注时序数据库领域

06-22

341

5.写入路径 |：TDengine v3.x（v3.3.x / v3.4.x） | 最后更新：2026-06-22SQL INSERT 是 TDengine 最通用的写入方式。它支持单行/多行、单表/跨表、显式建表/隐式自动建表（USING 子句）等多种语法形式，是上层应用与 ETL 工具最常使用的入口。

Flink Table API与SQL（二）

weixin_46300935的博客

06-16

290

摘要：本文介绍了Apache Flink的Table API，这是一个统一的关系型API，支持批处理和流处理，是SQL的超集。文章重点讲解了Table API的基础操作（如From、Select、Where、Distinct等）、表连接操作（Union、Join等）、聚合操作（GroupBy、OverWindow等）以及窗口操作（滚动窗口、滑动窗口、会话窗口）。通过Java和Scala代码示例，演示了如何使用Table API进行数据处理，包括时态Join和窗口聚合等高级功能。文中还强调了在处理无界数据时

用 Claude opus-4.8 辅助 Java 后端排查慢接口：从日志、SQL 到测试验证

her_heart的博客

06-21

491

本文以 Java Spring Boot 订单列表慢接口为例，介绍如何使用 Claude opus-4.8 辅助后端性能排查。文章从日志、代码、SQL、索引和调用链入手，展示 Prompt 写法、N+1 查询识别、SQL 执行计划验证、批量查询改造、压测与灰度观察方法，并对比 ChatGPT、Gemini、DeepSeek 在不同研发场景中的适用环节，强调 AI 只能辅助分析，最终仍需人工 Review、测试验证和数据闭环。

python psycopg2库操作postgresql

weixin_43989195的博客

06-23

305

介绍python 操作postgresql 库 psycopg2

【基础】PostgreSQL 数据导出

shen12138的博客

06-17

929

PostgreSQL 的导出其实可以很精细：先用查询摸清各表大小，再用pg_dump配合精准排除不需要的数据。这套「先查后导」的流程既能节省导出时间，又能控制备份文件的大小，值得在实际工作中推广使用。