文章浏览阅读190次。一、启动Kafka 我们之前已经安装过Kafka,现在远程至三台服务器(node1、node2、node3),在每一台服务器上执行下面命令,启动Zookeeper。cd /home/kafka_2.10-0.8.2.1zkServer.sh start 然后按远程至每一台服务器,执行......
2024-01-23 17:55 阅读 阅读全文文章浏览阅读685次。spark是什么 Spark 是专为大规模数据处理而设计的快速通用的计算引擎 ---百度百科由此可知,spark是一项处理大规模数据是技术,所以在了解Spark之前,熟悉以下开源的大数据技......
2024-01-24 04:45 阅读 阅读全文文章浏览阅读1.6k次,点赞3次,收藏9次。hadoop伪分布实例伪分布式读取的则是 HDFS 上的数据。要使用 HDFS,首先需要在 HDFS 中创建用户目录:hdfs dfs -mkdir -p /user/hadoop # 已经将hadoop中的bin加入到环境变量中将本地的word.txt复制到分......
2024-01-24 07:20 阅读 阅读全文文章浏览阅读595次。大数据开发人员,根据企业大数据处理的需求,进行大数据平台系统的搭建,比如说Hadoop,比如说Spark,而不同的大数据处理框架,采取不同的编程语言和编程模型,这就需要技术开发人员要掌握相关的技术......
2024-01-22 14:27 阅读 阅读全文文章浏览阅读5.9k次。Storage模块在Spark中提及最多的是RDD,而RDD所交互的数据是通过Storage来实现和管理Storage模块整体架构1. 存储层在Spark里,单机storage的管理是通过block来管理的,用每个块的存储可以在内存里或者在磁盘中,在B......
2024-01-24 05:05 阅读 阅读全文文章浏览阅读311次。1.Spark概述1.1 SparkSpark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。1.2 Spark历史1.3 Spark内置模块Spark Core:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块......
2024-01-23 22:43 阅读 阅读全文文章浏览阅读288次。前言美团最初的数据处理以Hive SQL为主,底层计算引擎为MapReduce,部分相对复杂的业务会由工程师编写MapReduce程序实现。随着业务的发展,单纯的Hive SQL查询或者MapReduce程序已经越来越难以满足数据处理和分......
2024-01-23 10:49 阅读 阅读全文文章浏览阅读2.1k次。Spark发展到今年,也已经有了十个年头了,在这十年的时间里,Spark在数据分析方面的优势得以显现,成为越来越多的企业的选择。Spark做数据分析,得益于Spark计算框架的优势,也获得了很好的竞争优势。今......
2024-01-22 14:27 阅读 阅读全文大数据学习与分享擅长大数据,Spark,Hive,等方面的知识,大数据学习与分享关注hive,storm,spark,hadoop,etl领域....
2023-10-10 03:22 阅读 阅读全文文章浏览阅读2.3k次。第112讲:为什么会有第一代大数据技术Hadoop和第二代大数据技术Spark?学习笔记本讲开始hadoop深入浅出实战经典部分本讲内容:1.第一代大数据技术Hadoop2.第二代大数据技术Spark hadoop开启了人们大规模普及化......
2024-01-23 18:27 阅读 阅读全文