某里巴巴公司，招聘spark技术笔试题

最新推荐文章于 2026-06-17 10:51:41 发布

原创最新推荐文章于 2026-06-17 10:51:41 发布 · 900 阅读

12 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#spark

一、选择题
1.下面哪个程序负责 HDFS 数据存储。
A、NameNode
B、Jobtracker
C、Datanode
D、secondaryNameNode
答案：C

2.HDFS 中的 block 默认保存几份？
A、3份
B、2份
C、1份
D、不确定
答案：A
3.hadoop2.x版本之后 HDFS 默认 Block Size。
A、32MB
B、64MB
C、128MB
D、256MB
答案：C

4.大数据集群的主要瓶颈是
A、CPU
B、网络
C、磁盘IO
D、内存
答案：C

5.关于SecondaryNameNode哪项是正确的？
A、它是NameNode的热备
B、它是内存没有要求
C、他的目的使帮助NameNode合并编辑日志，减少NameNode启动时间
D、SecondaryNameNode应与NameNode部署到一个节点
答案：C

6.下面哪个进程负责MapReduce任务调度。
A、NameNode
B、Jobtracker
C、TaskTracker0
D、secondaryNameNode
答案：B

7.（）反映数据的精细化程度，越细化的数据，价值越高。
A、规模 B、活性 C、关联度 D、颗粒度
答案：D

8.数据清洗的方法不包括（）。
A：缺失值处理 B、噪声数据清除 C、一致性检查 D、重复数据记录处理
答案：D

9.下列关于网络用户行为的说法中，错误的是（）。
A、网络公司能够捕捉到用户在其网站上的所有行为
B、用户离散的交互痕迹能够为企业提升服务质量提供参考
C、数字轨迹用完即自动删除
D、用户的隐私安全很难得以规范保护
答案：C

10.下列关于计算机存储容量单位的说法中，错误的是（）。
A、1KB＜1MB＜1GB B、基本单位是字节（Byte）
C、一个汉字需要一个字节的存储空间 D、一个字节能够容纳一个英文字符
答案：C

11.下列关于聚类挖掘技术的说法中，错误的是（）。
A、不预先设定数据归类类目，完全根据数据本身性质将数据聚合成不同类别
B、要求同类数据的内容相似度尽可能小
C、要求不同类数据的内容相似度尽可能小
答案：B

12.大数据的最显著特征是（）。
A、数据规模大 B、数据类型多样 C、数据处理速度快 D、数据价值密度高
答案：A

13.下列关于大数据的分析理念的说法中，错误的是（）。
A：在数据基础上倾向于全体数据而不是抽样数据
B：在分析方法上更注重相关分析而不是因果分析
C：在分析效果上更追究效率而不是绝对精确
D：在数据规模上强调相对数据而不是绝对数据
答案：D

14.数据治理是大数据技术的一个典型应用，数据来源繁多，下面哪一个不属于结构化数据源（）
A、网络日志 B、Mysql表数据 C、视频音频 D、csv文件
答案：C

16 .HDFS作为Hadoop中分布式存储单元，具备容灾容错的特性，不包括以下哪个情形( )
A、名称节点（Namenode）出错B、数据节点出错 C、数据出错 D、调度出错
答案：D
17. MapReduce计算引擎，属于哪一种计算模式（）
A、批量计算B、实时计算 C、流计算 D、查询分析
答案：A
18. 大数据框架中数据库很多，以下属于非关系型数据库的是（）
A、 Hive B、Mysql C、Hbase D、Oracle
答案：C
19. 智能健康手环的应用开发，体现了（）的数据采集技术的应用。
A、统计报表 B、网络爬虫 C、API接口 D、传感器
答案：D
20. 下列关于数据重组的说法中，错误的是（）。
A、数据重组是数据的重新生产和重新采集
B、数据重组能够使数据焕发新的光芒
C、数据重组实现的关键在于多源数据融合和数据集成
D、数据重组有利于实现新颖的数据模式创新
答案：A
22. Hive中可以使用SQL对数据表进行操作，对查询结果进行降序排列的关键函数是（）
A、Count ( ) B、DESC C、ASC D、Group by
答案：B
23. 数据采集是大数据开发工作的一个重要阶段，以下哪一个框架可以用于数据采集（）
A、 Hbase B、Flume C、Mahout D、Hive
答案：B
24.Hbase 可以实现超大规模的数据存储查询，它的存储是基于下面哪一个框架（）
A、Mysql B、HDFS C、GFS D、Spark
答案：B

25.下面哪一个框架是可靠的协同工作系统（）
A、Sqoop B、Flume C、Zookeeper D、Ambari
答案：C

26.大数据实时计算引擎 Spark作为目前企业主流的工具，其哪一个组件可以做实时计算（）
A、Spark core B、Spark Streaming C、Spark SQL D、Spark MLlib
答案：B

27.Client 端上传文件的时候下列哪项正确？
A、数据经过NameNode传递给DataNode
B、Client端将文件切分为Block，依次上传
C、Client只上传数据到一台DataNode，然后由NameNode负责Block复制工作
D、以上都不正确
答案：B

30.HDFS1.0默认BlockSize大小是多少。
A、32MB
B、64MB
C、128MB
D、256MB
答案：B

32.Hadoop1.0默认的调度器策略是哪个。
A、先进先出调度器
B、计算能力调度器
C、公平调度器
D、优先级调度器
答案：A

34.在实验集群的master节点使用jps命令查看进程时，终端出现以下哪项能说明Hadoop主节点启动成功？
A、Namenode,Datanode,TaskTracker
B、Namenode,Datanode,secondaryNameNode
C、Namenode,Datanode,HMaster
D、Namenode,JobTracker,secondaryNameNode
答案：D

35.若不针对MapReduce编程模型中的key和value值进行特别设置，下列哪一项是MapReduce不适宜的运算。
A、Max
B、Min
C、Count
D、Average
答案：D

36.MapReduce编程模型，键值对<key, value>的key必须实现哪个接口？
A、WritableComparable
B、Comparable
C、Writable
D、LongWritable
答案：A

37.以下哪一项属于非结构化数据。
A、企业ERP数据
B、财务系统数据
C、视频监控数据
D、日志数据
答案：C

38.HBase数据库的BlockCache缓存的数据块中，哪一项不一定能提高效率。
A、–ROOT-表
B、META表
C、HFileindex
D、普通的数据块
答案：D

39.HBase是分布式列式存储系统，记录按什么集中存放。
A、列族
B、列
C、行
D、不确定
答案：A

40.HBase的Region组成中，必须要有以下哪一项。
A、StoreFile
B、MemStore
C、HFile
D、MetaStore
答案：B

41.客户端首次查询HBase数据库时，首先需要从哪个表开始查找。
A、.META.
B、–ROOT-
C、用户表
D、信息表
答案：B

42.设计分布式数据仓库hive的数据表时，为取样更高效，一般可以对表中的连续字段进行什么操作。
A、分桶
B、分区
C、索引
D、分表
答案：A

43.大数据技术的迅速发展，很大程度上取决于信息基础技术的发展，以下哪一个不是主要因素：
A、存储设备容量增加
B、CPU性能提升
C、网络带宽增加
D、自动化技术提升
答案：D

44.以下数据单位换算哪个是错误的：
A、1Mb=1024Kb
B、1Tb=1024Mb
C、1Pb=1024Tb
D、1Eb=1024Pb
答案：B

46.以下哪一个不属于大数据的计算模式：
A、批量计算
B、实时计算
C、流计算
D、矩阵计算
答案：D

49.HDFS具有高容错性、高可靠性、高扩展性、高吞吐性，适合的读写任务形式是？
A、一次写入，少次读写
B、多次写入，少次读写
C、一次写入，多次读写
D、多次写入，多次读写
答案：C

50.MapReduce计算引擎，属于哪一种计算模式？
A、批量计算
B、实时计算
C、流计算
D、查询分析
答案：A

51.HDFS作为大数据主流的存储框架，具备良好的容灾特性，其中多副本是一个主要原因，HDFS默认副本数是？
A、1个
B、2个
C、3个
D、4个
答案：C

53.在HDFS上创建目录的命令参数是？
A、-touch
B、-cat
C、-mkdir
D、-dir
答案：C

54.数据采集是大数据开发工作的一个重要阶段，以下哪一个框架可以用于数据采集?
A、Hbase
B、Flume
C、Mahout
D、Hive
答案：B

55.Hbase作为Hadoop大家族中的重要一员，具有什么特性？
A、抽取加载转换工具
B、大规模数据实时写入实时查询
C、复杂的SQL计算
D、实时数据采集
答案：B

56.Hbase可以实现超大规模的数据存储查询，它的存储是基于下面哪一个框架？
A、Mysql
B、HDFS
C、GFS
D、Spark
答案：B

57.下面哪一个框架是可靠的协同工作系统？
A、Sqoop
B、Flume
C、Zookeeper
D、Ambari
答案：C

58.大数据实时计算引擎 Spark作为目前企业主流的工具，其哪一个组件可以做实时计算？
A、SparkCore
B、SparkStreaming
C、SparkSQL
D、SparkMLlib
答案：B

59.Hive作为大数据仓库的重要工具之一，数据是存放在？
A、Hbase
B、Hdfs
C、Oracle
D、Mysql
答案：B

60.Hive中可以使用SQL对数据表进行操作，对查询结果进行降序排列的关键函数是？
A、Count()
B、DESC
C、ASC
D、Groupby
答案：B

61.智慧校园，数据中心建设中需要将学生处存放在Mysql中的学生信息导入到大数据仓库hive中，可以使用的工具是？
A、Flume
B、Sqoop
C、Navicat
D、Kafka
答案：B

62.大数据和人工智能技术应用于医学领域可以做心脏病的预测等，thalach（心跳）数值作为非常重要的特征参与计算预测的样本数据，进入预测模型训练前需要对样本数据进行简单清洗过滤去除异常值，假设样本数据存放在Hive表中，过滤出thalach数小于200大于10的正常值，表名称为 DWH_test，心跳值字段为 thalach，下面SQL语法正确的是？
A、selectfrom’DW_H_test’where’thalach’>200or’thalach’<10
B、selectfrom’DW_H_test’where’thalach’<=200or’thalach’<10
C、selectfrom’DW_H_test’where’thalach’<200and’thalach’>10
D、selectfrom’DW_H_test’where’thalach’>200and’thalach’<10
答案：C

63.当前大数据技术的基础是由（）首先提出的。
A、微软
B、百度
C、谷歌
D、阿里巴巴
答案：C

64.大数据的起源是（）。
A、金融
B、电信
C、互联网
D、公共管理
答案：C

65.根据不同的业务需求来建立数据模型，抽取最有意义的向量，决定选取哪种方法的数据分析角色人员是（）。
A、数据管理人员
B、数据分析员
C、研究科学家
D、软件开发工程师
答案：C

69.下列关于数据重组的说法中，错误的是（）。
A、数据重组是数据的重新生产和重新采集
B、数据重组能够使数据焕发新的光芒
C、数据重组实现的关键在于多源数据融合和数据集成
D、数据重组有利于实现新颖的数据模式创新
答案：A

70.智慧城市的构建，不包含（）。
A、数字城市
B、物联网
C、联网监控
D、云计算
答案：C

72.美国海军军官莫里通过对前人航海日志的分析，绘制了新的航海路线图，标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的（ B）。
A、在数据基础上倾向于全体数据而不是抽样数据
B、在分析方法上更注重相关分析而不是因果分析
C、在分析效果上更追究效率而不是绝对精确
D、在数据规模上强调相对数据而不是绝对数据

73.下列关于舍恩伯格对大数据特点的说法中，错误的是（）。
A、数据规模大
B、数据类型多样
C、数据处理速度快
D、数据价值密度高
答案：D+

74.当前社会中，最为突出的大数据环境是（）。
A、互联网
B、物联网
C、综合国力
D、自然资源
答案：A

75.下列关于网络用户行为的说法中，错误的是（）。
A、网络公司能够捕捉到用户在其网站上的所有行为
B、用户离散的交互痕迹能够为企业提升服务质量提供参考
C、数字轨迹用完即自动删除
D、用户的隐私安全很难得以规范保护
答案：C

78.在数据生命周期管理实践中，（）是执行方法。
A、数据存储和备份规范
B、数据管理和维护
C、数据价值发觉和利用
D、数据应用开发和管理
答案：B

80.下列国家的大数据发展行动中，集中体现“重视基础、首都先行”的国家是（）。
A、美国
B、日本
C、中国
D、韩国
答案：D

82.大数据时代，数据使用的关键是（）。
A、数据收集
B、数据存储
C、数据分析
D、数据再利用
答案：D

83.下列关于数据交易市场的说法中，错误的是（）。
A、数据交易市场是大数据产业发展到一定程度的产物
B、商业化的数据交易活动催生了多方参与的第三方数据交易市场
C、数据交易市场通过生产数据、研发和分析数据，为数据交易提供帮助
D、数据交易市场是大数据资源化的必然产物
答案：C

84.下列论据中，能够支撑“大数据无所不能”的观点的是（）。
A、互联网金融打破了传统的观念和行为
B、大数据存在泡沫
C、大数据具有非常高的成本
D、个人隐私泄露与信息安全担忧
答案：A

85.数据仓库的最终目的是（）。
A、收集业务需求
B、建立数据仓库逻辑模型
C、开发数据仓库的应用分析
D、为用户和业务部门提供决策支持
答案：D

86.支撑大数据业务的基础是（）。
A、数据科学
B、数据应用
C、数据硬件
D、数据人才
答案：B

87.云计算的关键技术不包含下面哪一个（）。
A、虚拟化
B、分布式存储
C、分布式计算
D、应用软件技术
答案：D

88.hadoop2.0的组件中新增了哪个组件（）。
A、hdfs
B、mapreduce
C、yarn
D、Tez
答案：C

89.hadoop的安装配置中，需要的语言环境是（）。
A、Java
B、python
C、c语言
D、R语言
答案：A

90.在安装伪分布式hadoop时，配置hadoop运行环境的是哪个文件（）。
A、hdfs-site.xml
B、core-site.xml
C、
D、slaves
答案：C

91.hdfs的主节点是什么？
A、Datanode
B、Namenode
C、NodeManager
D、ResourceManage

92.hadoop2管理集群资源及调度的主进程是？
A、yarn
B、Mapreduce
C、ReouceManager
D、NodeManager
答案：A

95.hdfs中查看指定路径信息的命令是hadoop fs （）？
A、-cat
B、-ls
C、-tail
D、-mkdir
答案：B

96.hadoop 查看hdfs目录信息的端口是？
A、8088
B、19888
C、 50070
D、8080
答案：D

97.hadoop上传数据使用的命令是hadoop fs ()？
A、-mkdir
B、-touchz
C、-chgrp
D、-put
答案：D

98.hadoop节点Namenode描述错的是？
A、管理数据节点
B、文件块的映射
C、文件和目录的操作
D、存储数据
答案：D

99.hadoop创建hdfs目录的命令是hadoop fs （）？
A、-mkdir
B、-copyFromLocal
C、-cat
D、-chown
答案：A

100.hadoop下载hdfs上的文件到本地目录的命令 hadoop fs ()？
A、-cat
B、-ls
C、-stat
D、-get
答案：D

101.与大数据密切相关的技术是（）？
A、蓝牙
B、云计算
C、wifi
D、博弈论
答案：B

102.下面哪个程序负责HDFS数据存储？
A、NameNode
B、Jobtracker
C、Datanode
D、secondaryNameNode
答案：C
104.下列哪个程序通常与NameNode在一个节点启动？
A、SecondaryNameNode
B、DataNode
C、TaskTracker
D、Jobtracker
答案：D
105.Hadoop作者是哪位？
A、Martin Fowler
B、Kent Beck
C、Doug cutting
D、Alibaba
答案：C
109.下面与HDFS类似的框架是？
A、NTFS
B、FAT32
C、GFS
D、EXT3
答案：C

111.一个gzip文件大小75MB，客户端设置Block大小为64MB，请我其占用几个Block？
A、1
B、2
C、3
D、4
答案：B

112.HDFS有一个gzip文件大小75MB，客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时input split大小为？
A、64MB
B、75MB
C、一个map读取64MB，另外一个map读取11MB
D、读取11MB
答案：B

113.Client在HDFS上进行文件写入时，namenode根据文件大小和配置情况，返回部分datanode信息，谁负责将文件划分为多个Block，根据DataNode的地址信息，按顺序写入到每一个DataNode块。
A、Client
B、Namenode
C、Datanode
D、Secondary namenode
答案：A
115.HDFS无法高效存储大量小文件，想让它能处理好小文件，比较可行的改进策略不包括？
A、利用SequenceFile、MapFile、Har等方式归档小文件
B、多Master设计
C、Block大小适当调小
D、调大namenode内存或将文件系统元数据存到硬盘里
答案：D

116.关于HDFS的文件写入，正确的是？
A、支持多用户对同一文件的写操作
B、用户可以在文件任意位置进行修改
C、默认将文件块复制成三份存放
D、复制的文件块默认都存在同一机架上
答案：C
117.Namenode在启动时自动进入安全模式，在安全模式阶段，说法错误的是？
A、安全模式目的是在系统启动时检查各个DataNode上数据块的有效性
B、根据策略对数据块进行必要的复制或删除
C、当数据块最小百分比数满足的最小副本数条件时，会自动退出安全模式
D、文件系统允许有修改
答案：D
118.MapReduce框架提供了一种序列化键/值对的方法，支持这种序列化的类能够在Map和Reduce过程中充当键或值，以下说法错误的是？
A、实现Writable接口的类是值
B、实现WritableComparable接口的类可以是值或键
C、Hadoop的基本类型Text并不实现WritableComparable接口
D、键和值的数据类型可以超出Hadoop自身支持的基本类型
答案：C

119.以下四个Hadoop预定义的Mapper实现类的描述错误的是？
A、IdentityMapper<K, V>实现Mapper<K, V, K, V>，将输入直接映射到输出
B、InverseMapper<K, V>实现Mapper<K, V, K, V>，反转键/值对
C、RegexMapper实现Mapper<K, Text, Text, LongWritable>，为每个常规表达式的匹配项生成一个(match, 1)对
D、TokenCountMapper实现Mapper<K, Text, Text, LongWritable>，当输入的值为分词时，生成(taken, 1)对
答案：B

120.下列关于HDFS为存储MapReduce并行切分和处理的数据做的设计，错误的是？
A、FSDataInputStream扩展了DataInputStream以支持随机读
B、为实现细粒度并行，输入分片(Input Split)应该越小越好
C、一台机器可能被指派从输入文件的任意位置开始处理一个分片
D、输入分片是一种记录的逻辑划分，而HDFS数据块是对输入数据的物理分割
答案：B

126.Client 端上传文件的时候下列哪项正确？（）
A.数据经过 NameNode 传递给 DataNode
B.Client 端将文件切分为 Block，依次上传
C.Client 只上传数据到一台 DataNode，然后由 NameNode 负责 Block 复制工作
D.以上都不正确
答案：B
130. 在HDFS上创建目录的命令参数是（）
A、-touch B、-cat C、-mkdir D、-dir
答案：C

132.Hbase作为Hadoop大家族中的重要一员，具有什么特性（）
A、抽取加载转换工具 B、大规模数据实时写入实时查询 C、复杂的SQL计算D、实时数据采集
答案：B

134.下面哪一个框架是可靠的协同工作系统（）
A、Sqoop B、Flume C、Zookeeper D、Ambari
答案：C