网站介绍:在Spark 2.0之前,Spark的主要编程接口是弹性分布式数据集(RDD)。在Spark 2.0之后,RDD被数据集取代,数据集类似于RDD一样强类型,但在底层有更丰富的优化。Spark的shell用来学习API启动命令:./bin/spark-shellSpark的主要抽象是一个名为Dataset的分布式项目集合。可以从HDFS或通过转换其他数据集来创建数据集。例如:让...
- 链接地址:https://blog.csdn.net/weixin_42201566/article/details/85698946
- 链接标题:spark简单API入门-CSDN博客
- 所属网站:blog.csdn.net
- 被收藏次数:8850
- 网站标签:spark简单API入门