2、大数据入门:概念、类型、工具与命令详解

大数据入门:概念、类型、工具与命令详解

1. 大数据的概念与特性

1.1 大数据的引入

假设要开展一项调查,以了解 5 岁以下儿童营养不良的实际原因。在这个过程中,数据的收集和解读是同步进行的,目的是找出导致营养不良的每一个原因。

1.2 大数据的 5V 特性

大数据有 5 个关键特性,分别是 Volume(大量)、Variety(多样)、Velocity(高速)、Veracity(真实)和 Value(价值)。这里着重介绍其中三个特性:
- Variety(多样) :它描述了所收集的大量数据的多样性。在大数据的语境中,“多样”指的是数据的特征,即数据是有序的(同一类别的数据在同一组中)还是无序的(数据完全没有排列,它们之间无法建立关系)。
- Veracity(真实) :与数据的确认有关,它告诉我们数据块的可靠性,即收集到的数据是否有助于建立有用的关系,以及是否可以进行有用的解读。在医疗保健领域,会对个体进行多次检查,以确保疾病诊断没有误差,并据此提供治疗。
- Value(价值) :这是 5V 中最重要的一个。因为其他四个 V 都依赖于它。没有价值,就无法对数据进行解读、分析和确认。数据量(Volume)也就没有意义,因为数据量只是显示数据块的大小,如果这个数据块无法进一步处理,那么收集它也没有用。

2. 大数据的类型

由于 Variety(多样)这一特性,产生了不同类型的大数据,主要有三种:结构化数据、半结构化数据和非结构化数据。

2.1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值