Python学习笔记——大数据之Spark简介与环境搭建_SparkSQL用于处理大规模结构化数据的计算引擎有什么优势资源-CSDN文库

网站介绍:资源浏览查阅119次。Python学习笔记——大数据之Spark简介与环境搭建,Spark是Apache顶级项目里面最火的大数据处理的计算引擎,它目前是负责大数据计算的工作。包括离线计算或交互式查询、数据挖掘算法、流式计算以及图计算等。核心组件如下:SparkCore:包含Spark的基本功能;尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和SparkCore之上的。SparkSQL:提供通过ApacheHive的SQL变体Hive查询语言(HiveQL)与Spark进行交互的API。每个数据库表被当做一个RDD,SparkSQL查询被转换为Spark操作。对熟悉Hive和HiveQL的人,Spark可以拿来就用。SparkStrea更多下载资源、学习资料请访问CSDN文库频道