小哪吒的BD擅长大数据,spark,hadoop,等方面的知识,小哪吒的BD关注hive,storm,spark,hadoop,etl领域....
2023-10-11 21:27 阅读 阅读全文文章浏览阅读89次。========== Spark 的监控方式 ==========1、Spark Web UI Spark 内置应用运行监控工具(提供了应用运行层面的主要信息--重要)2、Ganglia 分析集群的使用状况和资源瓶颈(提供了集群的使用状况--资源......
2024-01-22 22:00 阅读 阅读全文文章浏览阅读737次。(接上篇)Spark应用实例接下来用具体实例解决一些常见的转换。所研究的数据集是Movielens(https://github.com/MLWhiz/spark_post),该数据集是一个稳定基准数据集。1700部电影中的1000名用户给出了100000份评分,发......
2024-01-22 22:05 阅读 阅读全文枣树下的石磙擅长大数据,编程,代码,spark业务开发,等方面的知识,枣树下的石磙关注hive,storm,spark,hadoop,etl领域....
2023-11-11 17:25 阅读 阅读全文文章浏览阅读2.2k次。1.spark是什么?Spark是一个基于内存的大数据计算引擎。提高了在大数据环境下数据处理的实时性,spark仅仅涉及到了数据的计算,没有涉及到数据的存储。Spark是由Scala语言编写的,2.什么是scalaScala 是一种多......
2024-01-22 15:15 阅读 阅读全文文章浏览阅读144次。========== Spark Streaming 是什么 ==========1、SPark Streaming 是 Spark 中一个组件,基于 Spark Core 进行构建,用于对流式进行处理,类似于 Storm。2、Spark Streaming 能够和 Spark Core、Spark SQL 来进行混合编程。3、Spark Streaming ......
2024-01-22 22:00 阅读 阅读全文小小酥_LH擅长大数据,scala,spark,等方面的知识,小小酥_LH关注hive,flink,storm,spark,hadoop,etl,推荐算法领域....
2023-10-11 14:13 阅读 阅读全文文章浏览阅读109次。第1章 RDD概述1.1 什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。1.2 RDD......
2024-01-23 13:12 阅读 阅读全文搞懂 Spark 系列之深入理解Spark内存管理,搞懂 Spark 系列之 Spark Shuffle 的前世今生,大数据基准测试工具HiBench部署与测试,spark,大数据...
2024-01-23 04:37 阅读 阅读全文文章浏览阅读3.9k次,点赞2次,收藏7次。1. 什么是梯度下降?梯度下降法(英语:Gradient descent)是一个一阶最优化算法,通常也称为最速下降法。 要使用梯度下降法找到一个函数的局部极小值,必须向函数上当前点对应梯度(......
2024-01-24 05:05 阅读 阅读全文