spark sql
文章平均质量分 54
rookie_bigdata
菜鸟一枚
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark sql / dataframe 二次排序,多字段排序问题
问题:spark sql / dataframe 日常操作中经常需要全局二次排序或者说针对多个字段排序然后输出到一个文件中,直接使用 order by 达不到想要的结果,只是分区内有序。 解决:在sql中使用 distribute by A_字段 sort by A_字段,B_字段 如果是dataframe,就先将dataframe注册为临时表,再使用sql df.createOrReplaceTempView("temp_tb") spark.sql("select * from tem原创 2022-02-25 15:21:16 · 2165 阅读 · 0 评论 -
spark sql 开窗函数加条件
需求:如下图 test.csv,dataframe 中每行都需要添加前边跟后边最近的的 SSSSSSS* 记录对应的值。 解决方案: 无法通过 lead, lag 等方法实现,因为开窗函数选定的数据框无法加上条件 思路 - 通过两次 Join 分别找到前后最近的 SSSSSS*记录,代码如下 var df = spark.read.option("header", "true").csv("C:\\Users\\XXX\\Desktop\\test.csv") // 读取文件 df = df.原创 2021-03-10 15:37:27 · 1352 阅读 · 0 评论
分享