文章浏览阅读220次。Spark一、Spark基础及安装(单机)二、Spark核心组件、运行架构及RDD创建三、Spark的RDD算子操作四、Spark算子:Java版本(map、flatMap、distinct、subtract、combineByKey等)五、RDD算子:reduceByKey、foldByKey、SortByKey六、Spa......
2024-01-23 12:49 阅读 阅读全文文章浏览阅读220次。下载地址:http://spark.apache.org/downloads.html下载压缩包,上传到 /usr/local,解压缩 重命名mv spark-2.4.3-bin-hadoop2.7 spark-2.4.3cd spark-2.4.3/confmv spark-env.sh.template spark-..._构建大数据平台spark...
2024-01-23 22:43 阅读 阅读全文大数据大数据,Spark,Hadoop,python大数据Spark一、安装大数据,Spark,Hadoop,python大数据Spark一、安装_spark大数据分析(python版...
2023-10-10 03:31 阅读 阅读全文大数据流浪法师擅长Spark,Hadoop,大数据,等方面的知识,大数据流浪法师关注大数据领域....
2023-10-11 14:53 阅读 阅读全文文章浏览阅读235次。大数据之Spark 源码分析_spark大数据分析与实战源代码...
2024-01-22 17:09 阅读 阅读全文海量数据的存储问题很早就已经出现了,一些行业或者部门因为历史的积累,数据量也达到了一定的级别。很早以前,当一台电脑无法存储这么庞大的数据时,采用的解决方案是使用NFS(网络文件系统)将数据分开存储。但是这种......
2023-10-11 14:26 阅读 阅读全文文章浏览阅读757次。1.1 什么是Spark1.2 Spark内置模块Spark Core:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed DataSet,简称RDD)的API定......
2024-01-24 08:40 阅读 阅读全文文章浏览阅读567次。前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。Spark性能优化指......
2024-01-23 13:52 阅读 阅读全文文章浏览阅读247次。一、本质Spark是一个分布式的计算框架,是下一代的MapReduce,扩展了MR的数据处理流程二、mapreduce有什么问题1.调度慢,启动map、reduce太耗时2.计算慢,每一步都要保存中间结果落磁盘3.API抽象简单,只有map和re......
2024-01-22 22:05 阅读 阅读全文老王的小知识擅长【大数据】Spark,【大数据】Scala,【大数据】面试题,等方面的知识,老王的小知识关注hive,storm,spark,hadoop,etl领域....
2023-10-11 14:15 阅读 阅读全文