多项选择题

关于Spark和Mapreduce，下列说法正确的是（）。

A.性能上提升高于100倍（全内存计算）
B.Spark的中间数据放在内存中，对于迭代运算、批处理计算的效率更高，延迟更低。
C.提供更多的数据集操作类型，编程模型更灵活，开发效率更高。
D.更低的容错能力（血统机制）。
E.Spark用十分之一的资源，获得10倍与Mapreduce的性能。

<上一题目录下一题>

热门试题

多项选择题

下面关于行存储和列存储说法正确的是（）。

A.行存储，数据按行存储在底层文件系统中。通常，每一行会被分配固定的空间。
B.列存储有利于增加/修改整行记录等操作；有利于整行数据的读取操作。
C.列存储整行读取时，可能需要多次I/O操作。

多项选择题

FusionInsight HD系统高可靠性体现在哪些方面（）。

A.所有组件无单点故障
B.所有管理节点HA
C.软硬件健康状态监控
D.网络平面隔离

多项选择题

有关HDFS说法正确的有（）。

A.HDFS不适合存储大量小文件
B.HDFS不适合有低延迟数据访问要求的业务
C.HDFS适合流式数据访问
D.基于HDFS的应用应该使用WORN的数据读写模型编程

多项选择题

数据挖掘的常见任务有（）。

A.关联分析
B.聚类分析
C.回归
D.分类

多项选择题

有关HBase说法正确的有（）。

A.分布式
B.列式数据库
C.非关系型数据库
D.不适合存储非结构化数据

多项选择题

hadoop的两大核心组件是（）。

A.HDFS
B.HBase
C.ZooKeeper
D.MapReduce

多项选择题

以下哪个操作属于shuffle过程（）。

A.Sort
B.Combine
C.Merge
D.Partition

多项选择题

在信息化过程中产生的大量数据，根据其产生来源可分为两类，这两类数据是（）。

A.社交数据
B.互联网数据
C.机器数据
D.统计数据

多项选择题

Yarn-client与Yarn-cluster的区别包含：（）。

A.Yarn-client适合测试，Yarn-cluster适合生产。
B.Yarn-client适合生产，Yarn-cluster适合测试。
C.Yarn-client任务提交节点宕机，整个任务会失败。Yarn-cluster不会。
D.Yarn-cluster任务提交节点宕机，整个任务会失败。Yarn-client不会。

多项选择题

以下哪些场景是Spark应用场景？（）

A.机器学
B.交互式分析
C.增量修改
D.流处理