一、选择题
1.下面哪个程序负责 HDFS 数据存储。
A、NameNode
B、Jobtracker
C、Datanode
D、secondaryNameNode
答案:C
2.HDFS 中的 block 默认保存几份?
A、3份
B、2份
C、1份
D、不确定
答案:A
3.hadoop2.x版本之后 HDFS 默认 Block Size。
A、32MB
B、64MB
C、128MB
D、256MB
答案:C
4.大数据集群的主要瓶颈是
A、CPU
B、网络
C、磁盘IO
D、内存
答案:C
5.关于SecondaryNameNode哪项是正确的?
A、它是NameNode的热备
B、它是内存没有要求
C、他的目的使帮助NameNode合并编辑日志,减少NameNode启动时间
D、SecondaryNameNode应与NameNode部署到一个节点
答案:C
6.下面哪个进程负责MapReduce任务调度。
A、NameNode
B、Jobtracker
C、TaskTracker0
D、secondaryNameNode
答案:B
7.( )反映数据的精细化程度,越细化的数据,价值越高。
A、规模 B、活性 C、关联度 D、颗粒度
答案:D
8.数据清洗的方法不包括( )。
A:缺失值处理 B、噪声数据清除 C、一致性检查 D、重复数据记录处理
答案:D
9.下列关于网络用户行为的说法中,错误的是( )。
A、网络公司能够捕捉到用户在其网站上的所有行为
B、用户离散的交互痕迹能够为企业提升服务质量提供参考
C、数字轨迹用完即自动删除
D、用户的隐私安全很难得以规范保护
答案:C
10.下列关于计算机存储容量单位的说法中,错误的是( )。
A、1KB<1MB<1GB B、基本单位是字节(Byte)
C、一个汉字需要一个字节的存储空间 D、一个字节能够容纳一个英文字符
答案:C
11.下列关于聚类挖掘技术的说法中,错误的是( )。
A、不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别
B、要求同类数据的内容相似度尽可能小
C、要求不同类数据的内容相似度尽可能小
答案:B
12.大数据的最显著特征是( )。
A、数据规模大 B、数据类型多样 C、数据处理速度快 D、数据价值密度高
答案:A
13.下列关于大数据的分析理念的说法中,错误的是( )。
A:在数据基础上倾向于全体数据而不是抽样数据
B:在分析方法上更注重相关分析而不是因果分析
C:在分析效果上更追究效率而不是绝对精确
D:在数据规模上强调相对数据而不是绝对数据
答案:D
14.数据治理是大数据技术的一个典型应用,数据来源繁多,下面哪一个不属于结构化数据源( )
A、网络日志 B、Mysql表数据 C、视频音频 D、csv文件
答案:C
16 .HDFS作为Hadoop中分布式存储单元,具备容灾容错的特性,不包括以下哪个情形( )
A、 名称节点(Namenode)出错B、数据节点出错 C、数据出错 D、调度出错
答案:D
17. MapReduce计算引擎,属于哪一种计算模式( )
A、 批量计算B、实时计算 C、流计算 D、查询分析
答案:A
18. 大数据框架中数据库很多,以下属于非关系型数据库的是 ( )
A、 Hive B、Mysql C、Hbase D、Oracle
答案:C
19. 智能健康手环的应用开发,体现了( )的数据采集技术的应用。
A、统计报表 B、网络爬虫 C、API接口 D、传感器
答案:D
20. 下列关于数据重组的说法中,错误的是( )。
A、数据重组是数据的重新生产和重新采集
B、数据重组能够使数据焕发新的光芒
C、数据重组实现的关键在于多源数据融合和数据集成
D、数据重组有利于实现新颖的数据模式创新
答案:A
22. Hive中可以使用SQL对数据表进行操作,对查询结果进行降序排列的关键函数是( )
A、Count ( ) B、DESC C、ASC D、Group by
答案:B
23. 数据采集是大数据开发工作的一个重要阶段,以下哪一个框架可以用于数据采集 ( )
A、 Hbase B、Flume C、Mahout D、Hive
答案:B
24.Hbase 可以实现超大规模的数据存储查询,它的存储是基于下面哪一个框架( )
A、Mysql B、HDFS C、GFS D、Spark
答案:B
25.下面哪一个框架是可靠的协同工作系统( )
A、Sqoop B、Flume C、Zookeeper D、Ambari
答案:C
26.大数据实时计算引擎 Spark作为目前企业主流的工具,其哪一个组件可以做实时计算( )
A、Spark core B、Spark Streaming C、Spark SQL D、Spark MLlib
答案:B
27.Client 端上传文件的时候下列哪项正确?
A、数据经过NameNode传递给DataNode
B、Client端将文件切分为Block,依次上传
C、Client只上传数据到一台DataNode,然后由NameNode负责Block复制工作
D、以上都不正确
答案:B
30.HDFS1.0默认BlockSize大小是多少。
A、32MB
B、64MB
C、128MB
D、256MB
答案:B
32.Hadoop1.0默认的调度器策略是哪个。
A、先进先出调度器
B、计算能力调度器
C、公平调度器
D、优先级调度器
答案:A
34.在实验集群的master节点使用jps命令查看进程时,终端出现以下哪项能说明Hadoop主节点启动成功?
A、Namenode,Datanode,TaskTracker
B、Namenode,Datanode,secondaryNameNode
C、Namenode,Datanode,HMaster
D、Namenode,JobTracker,secondaryNameNode
答案:D
35.若不针对MapReduce编程模型中的key和value值进行特别设置,下列哪一项是MapReduce不适宜的运算。
A、Max
B、Min
C、Count
D、Average
答案:D
36.MapReduce编程模型,键值对<key, value>的key必须实现哪个接口?
A、WritableComparable
B、Comparable
C、Writable
D、LongWritable
答案:A
37.以下哪一项属于非结构化数据。
A、企业ERP数据
B、财务系统数据
C、视频监控数据
D、日志数据
答案:C
38.HBase数据库的BlockCache缓存的数据块中,哪一项不一定能提高效率。
A、–ROOT-表
B、META表
C、HFileindex
D、普通的数据块
答案:D
39.HBase是分布式列式存储系统,记录按什么集中存放。
A、列族
B、列
C、行
D、不确定
答案:A
40.HBase的Region组成中,必须要有以下哪一项。
A、StoreFile
B、MemStore
C、HFile
D、MetaStore
答案:B
41.客户端首次查询HBase数据库时,首先需要从哪个表开始查找。
A、.META.
B、–ROOT-
C、用户表
D、信息表
答案:B
42.设计分布式数据仓库hive的数据表时,为取样更高效,一般可以对表中的连续字段进行什么操作。
A、分桶
B、分区
C、索引
D、分表
答案:A
43.大数据技术的迅速发展,很大程度上取决于信息基础技术的发展,以下哪一个不是主要因素:
A、存储设备容量增加
B、CPU性能提升
C、网络带宽增加
D、自动化技术提升
答案:D
44.以下数据单位换算哪个是错误的:
A、1Mb=1024Kb
B、1Tb=1024Mb
C、1Pb=1024Tb
D、1Eb=1024Pb
答案:B
46.以下哪一个不属于大数据的计算模式:
A、批量计算
B、实时计算
C、流计算
D、矩阵计算
答案:D
49.HDFS具有高容错性、高可靠性、高扩展性、高吞吐性,适合的读写任务形式是?
A、一次写入,少次读写
B、多次写入,少次读写
C、一次写入,多次读写
D、多次写入,多次读写
答案:C
50.MapReduce计算引擎,属于哪一种计算模式?
A、批量计算
B、实时计算
C、流计算
D、查询分析
答案:A
51.HDFS作为大数据主流的存储框架,具备良好的容灾特性,其中多副本是一个主要原因,HDFS默认副本数是?
A、1个
B、2个
C、3个
D、4个
答案:C
53.在HDFS上创建目录的命令参数是?
A、-touch
B、-cat
C、-mkdir
D、-dir
答案:C
54.数据采集是大数据开发工作的一个重要阶段,以下哪一个框架可以用于数据采集?
A、Hbase
B、Flume
C、Mahout
D、Hive
答案:B
55.Hbase作为Hadoop大家族中的重要一员,具有什么特性?
A、抽取加载转换工具
B、大规模数据实时写入实时查询
C、复杂的SQL计算
D、实时数据采集
答案:B
56.Hbase可以实现超大规模的数据存储查询,它的存储是基于下面哪一个框架?
A、Mysql
B、HDFS
C、GFS
D、Spark
答案:B
57.下面哪一个框架是可靠的协同工作系统?
A、Sqoop
B、Flume
C、Zookeeper
D、Ambari
答案:C
58.大数据实时计算引擎 Spark作为目前企业主流的工具,其哪一个组件可以做实时计算?
A、SparkCore
B、SparkStreaming
C、SparkSQL
D、SparkMLlib
答案:B
59.Hive作为大数据仓库的重要工具之一,数据是存放在?
A、Hbase
B、Hdfs
C、Oracle
D、Mysql
答案:B
60.Hive中可以使用SQL对数据表进行操作,对查询结果进行降序排列的关键函数是?
A、Count()
B、DESC
C、ASC
D、Groupby
答案:B
61.智慧校园,数据中心建设中需要将学生处存放在Mysql中的学生信息导入到大数据仓库hive中,可以使用的工具是?
A、Flume
B、Sqoop
C、Navicat
D、Kafka
答案:B
62.大数据和人工智能技术应用于医学领域可以做心脏病的预测等,thalach(心跳)数值作为非常重要的特征参与计算预测的样本数据,进入预测模型训练前需要对样本数据进行简单清洗过滤去除异常值,假设样本数据存放在Hive表中,过滤出thalach数小于200大于10的正常值,表名称为 DWH_test,心跳值字段为 thalach,下面SQL语法正确的是?
A、selectfrom’DW_H_test’where’thalach’>200or’thalach’<10
B、selectfrom’DW_H_test’where’thalach’<=200or’thalach’<10
C、selectfrom’DW_H_test’where’thalach’<200and’thalach’>10
D、selectfrom’DW_H_test’where’thalach’>200and’thalach’<10
答案:C
63.当前大数据技术的基础是由()首先提出的。
A、微软
B、百度
C、谷歌
D、阿里巴巴
答案:C
64.大数据的起源是()。
A、金融
B、电信
C、互联网
D、公共管理
答案:C
65.根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种方法的数据分析角色人员是()。
A、数据管理人员
B、数据分析员
C、研究科学家
D、软件开发工程师
答案:C
69.下列关于数据重组的说法中,错误的是()。
A、数据重组是数据的重新生产和重新采集
B、数据重组能够使数据焕发新的光芒
C、数据重组实现的关键在于多源数据融合和数据集成
D、数据重组有利于实现新颖的数据模式创新
答案:A
70.智慧城市的构建,不包含()。
A、数字城市
B、物联网
C、联网监控
D、云计算
答案:C
72.美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的( B)。
A、在数据基础上倾向于全体数据而不是抽样数据
B、在分析方法上更注重相关分析而不是因果分析
C、在分析效果上更追究效率而不是绝对精确
D、在数据规模上强调相对数据而不是绝对数据
73.下列关于舍恩伯格对大数据特点的说法中,错误的是()。
A、数据规模大
B、数据类型多样
C、数据处理速度快
D、数据价值密度高
答案:D+
74.当前社会中,最为突出的大数据环境是()。
A、互联网
B、物联网
C、综合国力
D、自然资源
答案:A
75.下列关于网络用户行为的说法中,错误的是()。
A、网络公司能够捕捉到用户在其网站上的所有行为
B、用户离散的交互痕迹能够为企业提升服务质量提供参考
C、数字轨迹用完即自动删除
D、用户的隐私安全很难得以规范保护
答案:C
78.在数据生命周期管理实践中,()是执行方法。
A、数据存储和备份规范
B、数据管理和维护
C、数据价值发觉和利用
D、数据应用开发和管理
答案:B
80.下列国家的大数据发展行动中,集中体现“重视基础、首都先行”的国家是()。
A、美国
B、日本
C、中国
D、韩国
答案:D
82.大数据时代,数据使用的关键是()。
A、数据收集
B、数据存储
C、数据分析
D、数据再利用
答案:D
83.下列关于数据交易市场的说法中,错误的是()。
A、数据交易市场是大数据产业发展到一定程度的产物
B、商业化的数据交易活动催生了多方参与的第三方数据交易市场
C、数据交易市场通过生产数据、研发和分析数据,为数据交易提供帮助
D、数据交易市场是大数据资源化的必然产物
答案:C
84.下列论据中,能够支撑“大数据无所不能”的观点的是()。
A、互联网金融打破了传统的观念和行为
B、大数据存在泡沫
C、大数据具有非常高的成本
D、个人隐私泄露与信息安全担忧
答案:A
85.数据仓库的最终目的是()。
A、收集业务需求
B、建立数据仓库逻辑模型
C、开发数据仓库的应用分析
D、为用户和业务部门提供决策支持
答案:D
86.支撑大数据业务的基础是()。
A、数据科学
B、数据应用
C、数据硬件
D、数据人才
答案:B
87.云计算的关键技术不包含下面哪一个()。
A、虚拟化
B、分布式存储
C、分布式计算
D、应用软件技术
答案:D
88.hadoop2.0的组件中新增了哪个组件()。
A、hdfs
B、mapreduce
C、yarn
D、Tez
答案:C
89.hadoop的安装配置中,需要的语言环境是()。
A、Java
B、python
C、c语言
D、R语言
答案:A
90.在安装伪分布式hadoop时,配置hadoop运行环境的是哪个文件()。
A、hdfs-site.xml
B、core-site.xml
C、
D、slaves
答案:C
91.hdfs的主节点是什么?
A、Datanode
B、Namenode
C、NodeManager
D、ResourceManage
92.hadoop2管理集群资源及调度的主进程是?
A、yarn
B、Mapreduce
C、ReouceManager
D、NodeManager
答案:A
95.hdfs中查看指定路径信息的命令是hadoop fs ()?
A、-cat
B、-ls
C、-tail
D、-mkdir
答案:B
96.hadoop 查看hdfs目录信息的端口是?
A、8088
B、19888
C、 50070
D、8080
答案:D
97.hadoop上传数据使用的命令是hadoop fs ()?
A、-mkdir
B、-touchz
C、-chgrp
D、-put
答案:D
98.hadoop节点Namenode描述错的是?
A、管理数据节点
B、文件块的映射
C、文件和目录的操作
D、存储数据
答案:D
99.hadoop创建hdfs目录的命令是hadoop fs ()?
A、-mkdir
B、-copyFromLocal
C、-cat
D、-chown
答案:A
100.hadoop下载hdfs上的文件到本地目录的命令 hadoop fs ()?
A、-cat
B、-ls
C、-stat
D、-get
答案:D
101.与大数据密切相关的技术是()?
A、蓝牙
B、云计算
C、wifi
D、博弈论
答案:B
102.下面哪个程序负责HDFS数据存储?
A、NameNode
B、Jobtracker
C、Datanode
D、secondaryNameNode
答案:C
104.下列哪个程序通常与NameNode在一个节点启动?
A、SecondaryNameNode
B、DataNode
C、TaskTracker
D、Jobtracker
答案:D
105.Hadoop作者是哪位?
A、Martin Fowler
B、Kent Beck
C、Doug cutting
D、Alibaba
答案:C
109.下面与HDFS类似的框架是?
A、NTFS
B、FAT32
C、GFS
D、EXT3
答案:C
111.一个gzip文件大小75MB,客户端设置Block大小为64MB,请我其占用几个Block?
A、1
B、2
C、3
D、4
答案:B
112.HDFS有一个gzip文件大小75MB,客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时input split大小为?
A、64MB
B、75MB
C、一个map读取64MB,另外一个map读取11MB
D、读取11MB
答案:B
113.Client在HDFS上进行文件写入时,namenode根据文件大小和配置情况,返回部分datanode信息,谁负责将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块。
A、Client
B、Namenode
C、Datanode
D、Secondary namenode
答案:A
115.HDFS无法高效存储大量小文件,想让它能处理好小文件,比较可行的改进策略不包括?
A、利用SequenceFile、MapFile、Har等方式归档小文件
B、多Master设计
C、Block大小适当调小
D、调大namenode内存或将文件系统元数据存到硬盘里
答案:D
116.关于HDFS的文件写入,正确的是?
A、支持多用户对同一文件的写操作
B、用户可以在文件任意位置进行修改
C、默认将文件块复制成三份存放
D、复制的文件块默认都存在同一机架上
答案:C
117.Namenode在启动时自动进入安全模式,在安全模式阶段,说法错误的是?
A、安全模式目的是在系统启动时检查各个DataNode上数据块的有效性
B、根据策略对数据块进行必要的复制或删除
C、当数据块最小百分比数满足的最小副本数条件时,会自动退出安全模式
D、文件系统允许有修改
答案:D
118.MapReduce框架提供了一种序列化键/值对的方法,支持这种序列化的类能够在Map和Reduce过程中充当键或值,以下说法错误的是?
A、实现Writable接口的类是值
B、实现WritableComparable接口的类可以是值或键
C、Hadoop的基本类型Text并不实现WritableComparable接口
D、键和值的数据类型可以超出Hadoop自身支持的基本类型
答案:C
119.以下四个Hadoop预定义的Mapper实现类的描述错误的是?
A、IdentityMapper<K, V>实现Mapper<K, V, K, V>,将输入直接映射到输出
B、InverseMapper<K, V>实现Mapper<K, V, K, V>,反转键/值对
C、RegexMapper实现Mapper<K, Text, Text, LongWritable>,为每个常规表达式的匹配项生成一个(match, 1)对
D、TokenCountMapper实现Mapper<K, Text, Text, LongWritable>,当输入的值为分词时,生成(taken, 1)对
答案:B
120.下列关于HDFS为存储MapReduce并行切分和处理的数据做的设计,错误的是?
A、FSDataInputStream扩展了DataInputStream以支持随机读
B、为实现细粒度并行,输入分片(Input Split)应该越小越好
C、一台机器可能被指派从输入文件的任意位置开始处理一个分片
D、输入分片是一种记录的逻辑划分,而HDFS数据块是对输入数据的物理分割
答案:B
126.Client 端上传文件的时候下列哪项正确?( )
A.数据经过 NameNode 传递给 DataNode
B.Client 端将文件切分为 Block,依次上传
C.Client 只上传数据到一台 DataNode,然后由 NameNode 负责 Block 复制工作
D.以上都不正确
答案:B
130. 在HDFS上创建目录的命令参数是 ( )
A、-touch B、-cat C、-mkdir D、-dir
答案:C
132.Hbase作为Hadoop大家族中的重要一员,具有什么特性( )
A、抽取加载转换工具 B、大规模数据实时写入实时查询 C、复杂的SQL计算D、实时数据采集
答案:B
134.下面哪一个框架是可靠的协同工作系统( )
A、Sqoop B、Flume C、Zookeeper D、Ambari
答案:C

9972

被折叠的 条评论
为什么被折叠?



