如下内容大多来自官方手册、论坛等。
这个产品解决了什么问题
概况
MaxCompute,旧名ODPS,是阿里的一款离线计算引擎。
底层基于阿里飞天、伏羲等阿里云基础套件,MaxCompute专注于离线计算部分。
对标产品:hadoop、spark等。
目前看,发展方向应该和很多公司用spark一致,主推以丰富的SQL来解决问题。毕竟sql相比MR等有较多的用户需求。以前的No SQL产品,近两年也大多都在增厚SQL解析这一层。而很多新增需求的设计和开发,也考虑了传统数据库用户的使用习惯。
产品的功能
导入导出
支持批量方式,将全量数据导入,使用tunnel。tunnel提供sdk,可以基于java开发自己的数据导入导出工具。但只能全量,基于表或者某个分区。不支持覆盖性写入,所以在用tunnel进行数据导入的时候,数据是以追加的方式入库的。tunnel上传数据的时候,支持断点续传(因为tunnel是先传输数据到一个临时位置,最后通过一次commit,将数据拷贝到目的库)。
支持实时,增量的方式导入数据,使用DataHub。
计算方式
支持的计算方式:
- SQL
- MapReduce
SQL
建议以SQL来进行计算,SQL语法中也刻意增加了MapReduce相关的部分。
支持常见的DDL、DML操作。
可以把项目空间等同于数据库,把表等同于表。不过没有主键、索引概念,不支持update、delete。
删除数据只能:按分区删除(drop分区表再新建),按表删除(无分区表支持truncate)。
支持join、group by、order by、like操作,能够支撑常规的分析计算类SQL操作,但阿里自研的SQL标准多少都有一些限制(譬如V0.9版本以前的ADS…),但总体看,MaxCompute的SQL支撑很完整。
有常见内置函数(数学、窗口、

MaxCompute(原ODPS)是阿里的离线计算引擎,基于阿里云基础组件构建,主要功能包括数据导入导出、SQL和MapReduce计算。支持SQL、MapReduce等多种计算方式,拥有丰富的SDK支持。

1804

被折叠的 条评论
为什么被折叠?



