
一、「工具」定义
工具原指工作时所需用的器具,后引申为达到、完成或促进某一事物的手段。工具是一个相对概念,因为其概念不是一个具体的物质,所以只要能使物质发生改变的物质,相对于那个能被它改变的物质而言就是工具。
生产力有两项,一项是人,一项是工具。工具是由人创造的。——毛泽东
地球上的一切工具和机器,不过是人肢体的知觉的发展而已。——爱迪生
二、「ETL工具」产生
ETL工具本身就是从手工代码中发展出来的,主要是用于提高DBA&开发人员的工作效率如:用户足够人力资源、时间和精力也可以自己手工建触发器,不过当系统纷繁复杂及数据量级达到时,后期调度和管理通常会成为棘手的问题,这时候也是专业ETL工具产品展现价值的时机。(如图)
三、「 ETL工具」项目重点
最大的痛点并不是数据的可视化和分析。80-90%项目时间在将不同来源的业务系统中的数据传输到同一个地方进行整合的过程中存在实施成本问题(规则定义、清洗、字典转换、传输、安全、性能……)一旦数据进入企业数据网络信息中心仓库后,其分析和可视化的问题都有解决方案,而在如何快速精准处理这些业务数据上却鲜有解决之道。
在做项目时是不是时常让客户有这样的困扰:
1、开发时间太长
2、花费太多
3、需要太多资源
4、集成多个事务系统数据总是需要大量人力成本
5、找不到合适的技能和经验的人
6、一旦建立,数据仓库无法足够迅速地应对变化
7、一直达不到客户的期望
8、业务人员很难获得数据仓库的数据
9、传统构建数据仓库费用极其可怕地保持运行后建立架构和设计不足,缺乏项目文档和团队支持
10、数据仓库有太多太复杂的工具和技术,不好分辨那个工具是实用的
11、构建数据仓库一直以来是一个高风险的任务
四、「 ETL工具」项目难点
规则多 (在数据库中心处理混合数据库类型的数据清洗、比对、规则定义复杂多样)
时间紧 (预计实施上限、上线后有待完善配置、不断评测、直至运行系统稳定)
系统多 (涉及多部门多系统协调)
异构转换杂(涉及字段类型、字段名称不一致……)
实施周期与上线运维成本无控
特别是“数据转换”“数据清洗”“数据过滤”…处理抽取上来的数据中存在的不一致的过程,主要涉及以下几个方面:
①空值处理:可捕获字段空值,进行加载或替换为其他含义数据,或数据分流问题库
②数据标准:统一元数据、统一标准字段、统一字段类型定义
③数据拆分:依据业务需求做数据拆分,如身份证号,拆分区划、出生日期、性别等
④数据验证:时间规则、业务规则、自定义规则
⑤数据替换:对于因业务因素,可实现无效数据、缺失数据的替换
⑥数据关联:关联其他数据或数学,保障数据完整性
…
五、择ETL工具关键
1、“工欲善其事,必先利其器”的专业ETL工具
2、专业高效实施能力(ETL工具原厂拥有专业实施公司团队是核心)
3、按项目预算选购适合的商用ETL工具(非开源、非包转开源、非包装数据辅助)
如:Informatica \ DS \BeeDI \ Beeload
ETL工具——国内信息化正当时!

557

被折叠的 条评论
为什么被折叠?



