1.1 大数据概述
大数据并不仅仅是“大量的数据”。在学术界,图灵奖获得者Jim Gray提出了以大数据为基础的数据密集型科学研究,也就是科学研究的第四范式,数据探索(data exploration);在工业界,大数据技术成为了涵盖分布式存储与管理、并行计算、机器学习与人工智能等一系列技术的庞大技术体系。目前,大数据技术与云计算、人工智能一起被公认为是IT(信息技术)时代向DT(数据技术)时代跃迁的三大产业支柱。
1.1.1 大数据来源
大数据是指规模大且复杂,以致于很难用现有数据库管理工具或数据处理应用来处理的数据集(Gartner如是定义:Big data is high-volume, high-velocity and high-variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making)。它涵盖了数据采集、存储、分析、使用等几个方面。
根据来源对象的不同,可以将其分为源自人、机、物等几类的大数据。若根据应用领域划分,则典型的大数据来源包括:互联网大数据、物联网大数据、生物医疗大数据、电信大数据、金融大数据、智慧城市大数据、交通大数据、科学研究大数据等。
1.1.2 大数据应用
大数据技术已经被广泛应用于电子商务、金融、智能医疗、智能交通等领域:
- 互联网大数据分析方面:分析用户购物数据,构建用户画像,准确地掌握用户购物倾向,实现精准营销;
- 交通大数据分析方面:对数据按时间切片分析,构建实时热点分布图,进行景区热力预警分析;
- 医疗健康大数据分析方面:通过对大量电子病历的学习,医学研究机构可以更清晰地发现疾病演变规律,并作出更科学、准确的诊断。
1.1.3 大数据技术架构
大数据技术设计数据的采集与预处理、数据分析、数据解释等。如下图

- 1.数据采集与预处理:数据源种类繁多,数据类型多样、包含各类结构化、非结构化和半结构化数据,因此数据采集与预处理为后继流程提供高质量数据集;为提高数据吞吐量,降低存储成本,通常采用分布式架构来存储大数据。
- 2.数据分析:是大数据应用的核心流程,分析层次大致分为计算架构、查询与检索,以及数据分析与处理等三类。在计算架构方面,MapReduce是广泛采用的计算架构和框架;在查询与检索方面,NoSQL类数据库技术得到更多关注;数据分析与处理方面,主要技术包括语义分析与数据挖掘。
- 3.数据解释:在更好地支持用户对数据分析结果的使用,涉及的主要技术有可视化技术和人机交互技术。
- 4.数据传输、虚拟集群等其他支撑技术:为大数据处理提供技术支撑。
1.2 大数据安全与隐私保护需求
1.2.1 大数据安全
由于数据价值密度高,大数据往往吸引大量攻击者铤而走险。在大数据场景带来如下各项新技术挑战:
- 1.在满足可用性的前提下实现大数据机密性:以数据加密为例,大数据应用不仅对加密算法性能提出了更高的要求,而且要求密文具备适应大数据处理的能力,例如数据检索与并发计算。
- 2.实

本文主要探讨了大数据的概念、来源与应用,强调了大数据安全与隐私保护的重要性。大数据安全涉及数据机密性、安全共享及真实性验证,而隐私保护关注匿名性与预测性威胁。文章分析了大数据生命周期中的安全风险,如数据采集、传输、存储和分析阶段的隐患,并介绍了相应的安全技术框架,包括访问控制、安全检索和安全计算等。同时,提到了差分隐私作为隐私保护的一种方法。最后,讨论了大数据在信息安全领域的应用,如威胁发现和数据真实性分析。

4472

被折叠的 条评论
为什么被折叠?



