为什么用datastage而不直接用sql

最新推荐文章于 2024-11-08 00:02:27 发布

转载最新推荐文章于 2024-11-08 00:02:27 发布 · 2.7k 阅读

·

0

·

标签

#数据库服务器 #数据仓库 #数据库

datastage 专栏收录该内容

20 篇文章

订阅专栏

本文探讨了在ETL工具DataStage中使用joinstage、aggregatestage、sortstage等特定功能的原因，与直接在数据源执行SQL操作进行筛选、聚合、排序的区别，重点阐述了性能考量及不同数据规模下选择的最佳实践。

我在用datastage的时候发现有些stage例如join stage,aggregate stage,sort stage等，
不就实现了order by ,sum ,连接等sql功能吗，那么我干嘛不在数据源的时候就做好这些事情呢，何必用这些stage呢？

例如我搞个odbc stage，自定义 sql select count(1),a from A group by a不就可以了吗

--

我也感觉得是性能问题。比如用lookup做关联匹配的速度，比在Oracle里面用存储过程处理要快，当然原因有很多方面的，比如DS服务器性能和数据仓库的服务器性能差异，网络因素等。

--

数据量不大的话，在数据库端做确实比较好。
数据量大的话，全丢给数据库压力吃不消（况且数据库和etl平台不是同一机器），比如100G和100G的表做关联。。。数据库会down掉
在ds平台的话，中间过程全丢到数据库服务器外，通过etl的并行机制，效率大大提高

--

常见的一个场景是：数据源非关系数据库，例如文本、EXCEL，这时候你就需要用这些STG实现JOIN、AGGREGATE、SORT。。。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。