关于创新---我的本月主要讨论话题(转)

本文探讨了数据仓库领域的创新现状及挑战,特别是在中小型企业面临的局限。文章提出了解决方案,即在现有模型基础上进行创新,强调了理解并改进维表的重要性,以实现更好的项目效益。
创新的重要性这里就不多讲了,但目前的情况是,创新在DWBI界只属于少数大公司,而中小公司被越来越逼到很小的发展空间。其典型的例子,就是大公司在推出自己的一套书据仓库方案,往往不会说什么方案,怎么实施,怎么设计,而是推出一系列的产品、工具以及行业模型,其核心技术尽在其中,而第三方只需要使用他们的工具和模型,然后根据客户的需求去实施。这样很明显,如果在架构、模型有突破创新的时候,他们的工具和模型会继续保持领先,而你解决不了的问题仍然存在。 而工具、模型并不是万能的,很简单的例子,就是厂商自己的项目里,往往并没有用太多的工具,而是踏踏实实地设计架构、模型,然后在基础构架好的情况下使用工具增加开发效率。 在厂商们产品驱动的诱惑下,技术层面一般是先架构在其全套产品线上,甚至会选用模型,然后再根据客户的需求进行实施。这其实是本末倒置的方案,因为任何产品的设计都是基于数据仓库基本理论和实践成果的基础上,帮助你更好实事的,而不是先有产品才去实施。 那么如何去创新,首先就要在创新思路上摆脱产品的约束,站在更高的高度看待数据仓库的问题,那就是数据仓库技术的真理:用更合理的成本,更客户创造更好的项目效益,满足客户更多需求。 本人最近在写成一个关于在模型上创新的小论文。其基础并不是说如何去创作自己的行业模型,而是在大家发展的模型或者大公司的行业模型之上进行创新。比如时间维,一般行业模型都会有,但人家卖给你模型时,不会教你如何在其基础上进行无限扩展来满足客户需求,在自己总结的模型中,也往往会缺乏更深入的总结。而在行业模型中,维表是相对比较稳定,数据源也比较稳定的,但维表是否做得好,往往决定了是否能满足更多BI需求。虽然更大的扩展性在架构和整体模型上,但这对于中小项目,是最重要的了。那么由于维表的这些特性,我们往往可以进行预处理,自己制定其ETL规则,用于更多项目,达到高效、节约成本,同时满足项目质量的目的。 我这么说并不是说大公司的产品和模型不重要,而是说核心的东西必须自己掌握,不能依赖于别人的产品,任何工具和模型只能是实施的工具,那么你要做得更好,有更大的发展,请自己在前人和自己的经验基础上不断创新去吧。[@more@]

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/8227599/viewspace-933000/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/8227599/viewspace-933000/

内容概要:本文系统阐述了Python在数据分析与可视化领域的技术实践,涵盖数据分析基础、数据探索方法、可视化技术原理、高级可视化应用及实战案例五大方面。文章首先介绍NumPy和Pandas在数据处理与描述性统计中的核心作用,继而讲解相关性分析、分布分析和分组对比等探索性分析方法。随后深入剖析Matplotlib、Seaborn和Plotly三大可视化库的技术特点与应用场景,涵盖静态图表、统计图形到交互式可视化。最后通过交通数据的实战案例,演示从数据预处理、探索分析到多维度可视化呈现的完整流程。; 适合人群:具备Python基础、对数据处理与可视化感兴趣的初中级开发者,以及从事数据分析、运营分析、数据科学研究等相关工作的人员;尤其适合工作1-3年、希望提升数据实战能力的研发人员。; 使用场景及目标:①掌握Pandas进行数据清洗、分组聚合与描述性统计的方法;②熟练运用Matplotlib、Seaborn和Plotly实现多样化数据可视化;③通过真实案例理解探索性数据分析流程并构建交互式仪表盘;④应用于业务报表开发、数据洞察挖掘和决策支持系统建设。; 阅读建议:建议结合代码实践同步学习,重点理解不同可视化工具的适用边界,并在实战中尝试迁移应用文中案例逻辑,强化对数据分布识别、多维分析和交互设计的理解。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值