起始
标签平台作为数据平台建设的一部分,尤其是在互联网电商平台中,有着重要的作用。本人在公司接手并且重构了整个标签平台的核心逻辑。对标签平台有一定的了解。写这篇文章的契机是几个数仓的哥们,问到了这方面的问题,正好我也可以总结一下。
本文从技术角度,通过以下几个方面来阐述标签平台的建设历程
- 什么是特征/标签
- 什么是标签平台
- 标签平台可以解决的问题
- 标签平台迭代历程
- 标签平台核心功能的解析
- 离线特征平台
- 实时特征平台
- 标签组装和调度
- 标签分析
- 查询引擎
- 数据流的走向 - 总结
关键字解读
特征:对某个维度特征的描述,特征也是标签,只不过是原子维度的标签。
标签:一组特征的组合。
实验: 一组相似或者完全不同的标签的组合,主要做某种优化的尝试。
正文
什么是特征/标签
特征就是对某个维度的描述,比如人,有各种固定的属性(年轻,身高,体重),行为的维度(一天挣多少钱,喜欢什么颜色)这些也可以归结为特征。而标签更好理解,标签就是一组特征的组合。从广义上来讲标签和特征是一类东西。叫法不一样而已。
特征大致分为三类:
统计型特征
一些基础的属性比如年龄,城市星座,和一些通过统计数据中得到的(活跃时常,活跃天数等)。这些基础属性和统计类属性构成了特征的基础
规则型特征
通过一些规则产生。一般是对一些统计型标签估计量化形成业务可以看懂的特征。这类特征在业务上比较重要,因为一般使用平台的都是运营的同学,这些已知规则的标签,业务的同学才能看得懂。比如针对商品的一些标,双11大促标,7天无理由退货标等等。
机器学习挖掘型
通过机器学习挖掘产生,比如判断用户性别,用户购买偏好,流失意向,一般开发成本比较高,占比较小。
特征是标签平台的基础,一般而言,特征越丰富,圈选的标签就越丰富,所以有时候就会有一个误区,数仓同学在开发特征的时候,直接就是把业务的各种大宽表导入进来。从业务上看大而全,但是实际应用中很多特征一次都没有用过。在我们的一些经验里面,应该把基础特征做全,其他根据业务的需求增量去开发,避免一些无用特征的浪费,而且还要根据特征的使用情况,淘汰掉一些使用度很低的特征。
特征/标签的口径说明应该是特征/标签体系中最重要的部分,特征的口径/说明决定了特征的使用度。从系统开发的角度,一方面是尽量提供明确的口径说明,血缘关系,特征的联系人,从应用的角度。尽量多创建一些通用的规则型特征,方便业务方使用。
什么是标签平台
在狭义的理解中,标签平台就是做标签圈选的。以某电商标签平台为例,可以给用户打标签(年龄,职业,收入…),也可以给商品打标签(颜色,尺寸,类型…),当然也可以给商家打标签(星级, 排名)。
但是特征从哪里来?标签怎么组装?标签怎么存储?如何进行标签分析?数据如何回流?这些都是在标签平台的范畴之内。先整理了一个标签从特征生产,特征组装成标签, 查询引擎一整个流程。给大家一个直面的认识。如下图:

标签平台包含特征,标签,查询三个大块,这几大块组合起来就是一个标签平台

本文探讨了标签平台在电商中的关键作用,从特征与标签定义、平台架构、解决的问题、迭代过程,到核心功能解析,特别是离线和实时特征平台、标签管理和分析。作者分享了从开发视角出发的标签平台建设经验及面临的挑战,如数据整合、特征管理、实时分析等。

3311

被折叠的 条评论
为什么被折叠?



