大数据是不能使用传统计算技术处理的大型数据集的集合。这些数据集的测试涉及各种工具,技术和框架。大数据涉及数据创建,存储,检索和分析,数量,多样性和速度都要求非常高。
测试策略
更多的是验证其数据处理而不是单个功能,性能和功能测试*是关键都很重要。
使用集群和其他支持组件来验证TB级数据的处理。它需要高水平的测试技能,因为处理非常快。处理有三种类型

数据质量也是大数据测试的重要因素,检查数据的质量是重要环节,需要检查一致性、有效性,重复,完整性等。
测试步骤在·

数据分段验证
也称为pre-Hadoop阶段,涉及处理验证。
-
各种来源(如RDBMS,博客,社交媒体等)的数据应进行验证,以确保正确的数据pull到系统
-
比较源数据与推送到Hadoop系统中的数据
-
验证数据正确提取并加载到正确的HDFS位置
像工具Talend,Datameer,可用于数据分段的验证
MapReduce验证
验证每个节点上的业务逻辑验证,然后在多个节点运行后验证它们,确保
-
Map Reduce进程正常工作
-
数据聚合或隔离规则
-
生成键值对
-
验证Map Reduce处理后数据
</


4853

被折叠的 条评论
为什么被折叠?



