大数据入门:概念、类型、工具与命令详解
1. 大数据的概念与特性
1.1 大数据的引入
假设要开展一项调查,以了解 5 岁以下儿童营养不良的实际原因。在这个过程中,数据的收集和解读是同步进行的,目的是找出导致营养不良的每一个原因。
1.2 大数据的 5V 特性
大数据有 5 个关键特性,分别是 Volume(大量)、Variety(多样)、Velocity(高速)、Veracity(真实)和 Value(价值)。这里着重介绍其中三个特性:
- Variety(多样) :它描述了所收集的大量数据的多样性。在大数据的语境中,“多样”指的是数据的特征,即数据是有序的(同一类别的数据在同一组中)还是无序的(数据完全没有排列,它们之间无法建立关系)。
- Veracity(真实) :与数据的确认有关,它告诉我们数据块的可靠性,即收集到的数据是否有助于建立有用的关系,以及是否可以进行有用的解读。在医疗保健领域,会对个体进行多次检查,以确保疾病诊断没有误差,并据此提供治疗。
- Value(价值) :这是 5V 中最重要的一个。因为其他四个 V 都依赖于它。没有价值,就无法对数据进行解读、分析和确认。数据量(Volume)也就没有意义,因为数据量只是显示数据块的大小,如果这个数据块无法进一步处理,那么收集它也没有用。
2. 大数据的类型
由于 Variety(多样)这一特性,产生了不同类型的大数据,主要有三种:结构化数据、半结构化数据和非结构化数据。
超级会员免费看
订阅专栏 解锁全文

2万+

被折叠的 条评论
为什么被折叠?



