多项选择题

下列关于RDD、DataFrame和DataSet描述正确的是（）。

A.RDD、DataFrame、DataSet全都是spark平台下的分布式弹性数据集，为处理超大型数据提供便利
B.三者都有惰性机制，在进行创建、转换，如map方法时，不会立即执行，只有在遇到Action如foreach时，三者才会开始遍历运算
C.在对DataFrame和Dataset进行操作许多操作都需要进行引入：import spark.implicits._
D.DataFrame可以通过toDS转化为DataSet

<上一题目录下一题>

热门试题

多项选择题

下列关于SparkSQL描述正确的是（）。

A.提供了两个编程抽象：DataFrame和DataSet。
B.底层将SQL转换成RDD ，然后提交到集群执行。
C.DataFrame和DataSet可以进行相互转化。
D.SparkSQL兼容HQL语法。

多项选择题

下列关于DAG描述正确的是（）。

A.RDD通过一系列的转换就就形成了DAG。
B.根据RDD之间的依赖关系的不同将DAG划分成不同的Stage。
C.对于窄依赖，partition的转换处理在Stage中完成计算。
D.对于宽依赖，由于有Shuffle的存在，只能在parent RDD处理完成后，才能开始接下来的计算。