多项选择题
A.格式不规范 B.编码不统一 C.意义不明确 D.与实际业务关系不大 E.数据不完整
A.分布式文件系统 B.分布式并行计算 C.关系型数据库 D.分布式数据库
A.性能上提升高于100倍(全内存计算) B.Spark的中间数据放在内存中,对于迭代运算、批处理计算的效率更高,延迟更低。 C.提供更多的数据集操作类型,编程模型更灵活,开发效率更高。 D.更低的容错能力(血统机制)。 E.Spark用十分之一的资源,获得10倍与Mapreduce的性能。