单项选择题
A.Map的输出=Reduce的输出 B.Map的输入=Reduce的输出 C.Map的输出=Reduce的输入 D.Map的输入=Reduce的输入
A.32MB B.64MB C.128MB D.128GB
A.1 B.2 C.3 D.4
A.10%-20% B.50%-60% C.70%-80% D.80%-90%
A.大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的。 B.大数据是人们获得新的认知、创造新的价值的源泉。 C.大数据还是改变市场、组织机构,以及政府与公民关系的方法。 D.无效的数据越来越多。
A.NameNode B.DateNode C.Block D.Client
A.调用RDD的Transformation算子可以立即发起job B.NodeManager负责整个集群的资源统一调度和分配。 C.Yarn-client适合测试,Yarn-cluster适合生产。 D.Dataset具有RDD和DataFrame的优点,又避免它们的缺点。
A.分区 B.排序 C.组合 D.合并
A.map B.filter C.save D.count
A.非结构化数据包括图片、位置信息、网络日志、模型、文档以及关系数据库中的数据。 B.Container是YARN中的资源抽象,它封装了某个节点上的多维度资源,如内存、CPU等。 C.HDFS的写入流程中,客户端通过自有协议向各个DataNode写入数据。 D.ApacheSpark是一种基于内存的快速、通用、可扩展的大数据计算引擎。
A.单机模式 B.伪分布式模式 C.多机模式 D.分布式模式