一、大数据分析的方法
1.布隆过滤器
布隆过滤器由一个位数组和一系列的哈希函数组成。
原理:通过利用位数组来存储数据本身之外数据的哈希值。位数组本质上是使用哈希函数来进行数据的有损压缩,从而存储其位图索引。
特点:空间效率高、查询速度快、具有一定的误识别率、删除困难
适用于:允许某种误识别率的大数据应用程序
2.散列法
将数据变换为较短的固定长度数值或索引值的基本方法
特点:快速读取、快速写入、高查询速度
难点:如何找到健全的散列函数
3.索引法
特点:减少磁盘读取和写入成本的有效方法;提高插入、删除、修改和查询速度;具有用于存储索引文件的附加成本,并且索引文件应当根据数据更新动态地维护
新学知识点:B数
4.字典树
又称单词查找树,是一个哈希树的变体
应用:快速检索和字频统计
原理思想:利用字符串的常见前缀来最大限度地减少字符串的比较,从而提高查询效率。
5.并行计算
原理思想:分解一个问题将其分配给几个独立的进程,以便独立完成从而实现协同处理。
二、大数据分析架构
1.实时分析
主要用于电子商务和金融
实时分析的现有架构包括使用传统关系数据库的并行处理集群和基于存储器的计算平台
2.离线分析
通常用于对响应时间没有较高要求的应用,例如机器学习、统计分析和推荐算法
离线分析目前技术上已经成熟
3.不同层次的分析
3.1内存级分析
内存级分析非常适合实时分析,其中MongoDB是一种代表性的内存级分析架构
MongoDB的优点如下:
弱一致性,更能保证用户的访问速度
文档结构的存储方式,便于获取数据(文档是MongoDB中数据的基本单位)
支持大容量的存储
负载均衡
第三方支持丰富
性能优越
缺点:
MongoDB不支持事务操作且占用空间较大
目前还存在一定的稳定性问题
3.2BI分析
BI(商业智能)分析适用于数据规模超过内存级别,但可以导入到BI分析环境中的情况。目前,主流的BI产品提供了可以支持到TB级别的数据分析计划
商业智能技术的常见功能包括报告、在线分析处理、数据挖掘、过程挖掘、复杂事件处理、业务绩效管理、基准测试、文本挖掘、预测分析和规范分析
这个架构包括数据层、业务层和应用层三个部分
3.3海量分析
当数据量表完全超过BI和传统关系数据库的能力时,我们将用到海量数据分析。
目前,大多数的大规模分析使用hadoop的HDFS来存储数据,并使用MapReduce进行数据分析。大多数的大规模分析都属于离线分析类别
三、大数据分析应用
1.R语言
R语言是一种开源编程语言和软件环境,用于数据挖掘、数据分析和可视化。R语言是S语言的实现。R语言是一种解释语言,用户通常通过命令行解释器访问它。
2.Excel和SQL
3.RapidMiner
用于数据挖掘、机器学习和预测分析
RapidMiner用JAVA编写,集成了Weka的学习和评估方法,并且与R语言一块工作
4.KNIME
该平台包括数据集成、数据处理、数据分析和数据挖掘
KNIME使用Java编写,基于eclipse并且具有更多的功能插件
5.Weka和Pentaho
大数据分析
最新推荐文章于 2025-12-30 22:43:53 发布
本文深入探讨了大数据分析的方法,包括布隆过滤器、散列法、索引法、字典树和并行计算。同时,介绍了大数据分析的三种架构:实时分析、离线分析和不同层次的分析,如内存级分析中的MongoDB、BI分析和海量分析。最后,提到了R语言、Excel和SQL、RapidMiner、KNIME以及Weka和Pentaho等在大数据分析中的应用。

254

被折叠的 条评论
为什么被折叠?



