storm之tuple详解

最新推荐文章于 2021-10-11 08:00:48 发布

转载最新推荐文章于 2021-10-11 08:00:48 发布 · 2.4k 阅读

标签

#tuple #storm #详解

数据处理同时被 3 个专栏收录

22 篇文章

订阅专栏

实时

8 篇文章

订阅专栏

storm

6 篇文章

订阅专栏

本文深入解析了Apache Storm中Tuple的数据模型，Tuple作为Storm的核心数据结构，由一系列无边界的值组成，每个值都有一个特定的名字，代表数据流中的基本处理单元。文章详细介绍了如何在Storm的Topology中定义和使用Tuple，包括Spout类中的nextTuple方法，以及Bolt如何发射Tuple。

Storm中的数据结构类型为Tuple

官方解释：

“A tuple is a named of values where each value can be any type.”

tuple是一个类似于列表的东西，存储的每个元素叫做field（字段），可以是任何类型。

Storm使用tuple作为它的数据模型，每个tuple是一堆值，每个值都有一个名字，

一个Tuple代表数据流中的一个基本处理单元，例如：一条cookie日志，他可以包含多个Field, 每个Field表示一个属性。

Tuple本应该是一个Key-Value的Map, 由于各个组件之间的传递的tuple字段名称已经实现预定好了，

所以Tuple只需要按序填入各个Value,所以就是一个Value List。

一个没有边界、源源不断的Tuple序列就组成了Stream。

topology里面的每个节点，必须定义它要发射的Tuple的每个字段，必须下面这个bolt定义它所发射的tuple包含两个字段，类型分别为double,triple。

public class DoubleAndTripleBolt implements IRichBolt {

    private OutputCollector _collector;

    @Override

    public void prepare(Map conf, TopologyContext context, OutputCollector collector) {

        _collector = collector;

    }

    @Override

    public voide xecute(Tuple input) {

        int val = input.getInteger(0);

        _collector.emit(input,new Values(val*2, val*3));

        _collector.ack(input);

    }

    @Override

    public void cleanup() {

    }

    @Override

    public void declareOutputFields(OutputFieldsDeclarer declarer) {

        declarer.declare(newFields("double","triple"));

    }

}

// declareOutputFields方法定义要输出的字段 ： [“double”, “triple”]。

nextTuple() -- 这是Spout类中最重要的一个方法。发射一个Tuple到Topology都是通过这个方法来实现的。调用此方法时，storm向spout发出请求，让spout发出元组（tuple）到输出器（ouput collector）。这种方法应该是非阻塞的，所以spout如果没有元组发出，这个方法应该返回。nextTuple、ack 和fail 都在spout任务的同一个线程中被循环调用。当没有元组的发射时，应该让nextTuple睡眠一个很短的时间（如一毫秒），以免浪费太多的CPU。

转载自：https://blog.csdn.net/wuxintdrh/article/details/61933004