多项选择题
A.性能上提升高于100倍(全内存计算) B.Spark的中间数据放在内存中,对于迭代运算、批处理计算的效率更高,延迟更低。 C.提供更多的数据集操作类型,编程模型更灵活,开发效率更高。 D.更低的容错能力(血统机制)。 E.Spark用十分之一的资源,获得10倍与Mapreduce的性能。
A.行存储,数据按行存储在底层文件系统中。通常,每一行会被分配固定的空间。 B.列存储有利于增加/修改整行记录等操作;有利于整行数据的读取操作。 C.列存储整行读取时,可能需要多次I/O操作。
A.所有组件无单点故障 B.所有管理节点HA C.软硬件健康状态监控 D.网络平面隔离
A.HDFS不适合存储大量小文件 B.HDFS不适合有低延迟数据访问要求的业务 C.HDFS适合流式数据访问 D.基于HDFS的应用应该使用WORN的数据读写模型编程
A.关联分析 B.聚类分析 C.回归 D.分类
A.分布式 B.列式数据库 C.非关系型数据库 D.不适合存储非结构化数据
A.HDFS B.HBase C.ZooKeeper D.MapReduce
A.Sort B.Combine C.Merge D.Partition
A.社交数据 B.互联网数据 C.机器数据 D.统计数据
A.Yarn-client适合测试,Yarn-cluster适合生产。 B.Yarn-client适合生产,Yarn-cluster适合测试。 C.Yarn-client任务提交节点宕机,整个任务会失败。Yarn-cluster不会。 D.Yarn-cluster任务提交节点宕机,整个任务会失败。Yarn-client不会。
A.机器学 B.交互式分析 C.增量修改 D.流处理