文章浏览阅读899次,点赞2次,收藏2次。最近在对大数据以往的学习过的东西进行整理,本篇博客总结一下hdfs的相关概念以及其执行流程一 HDFS概念HDFS是一个文件系统,用于存储和管理文件,通过统一的命名空间(类似于本地文......
2024-01-24 04:48 阅读 阅读全文文章浏览阅读1k次。1.1 本地模式特点运行在单台机器上,没有分布式思想,使用的是本地文件系统用途用于对MapReduce程序的逻辑进行测试,确保程序的正确,由于在本地模式测试和调试MapReduce程序较为方便,因此,这种模式适宜......
2024-01-25 06:54 阅读 阅读全文文章浏览阅读1k次。一、准备阶段首先配置本机的环境变量,配置好HADOOP_HOME;在eclipse中安装好插件,以便在eclipse中操作HDFS集群,将hadoop-eclipse-plugin-2.6.0.jar包放入到eclipse安装文件夹下的dropins文件夹中的plugins下,此后重启eclipse......
2024-01-22 16:15 阅读 阅读全文文章浏览阅读143次。HDFS完全分布式`## 1、环境需求说明:-1. 三台机器的防火墙必须是关闭的. -2. 确保三台机器的网络配置畅通(NAT模式,静态IP,主机名的配置) -3. 确保/etc/hosts文件配置了ip和hostname的映射关系 -4. 确保配置了三台......
2024-01-25 06:54 阅读 阅读全文文章浏览阅读3.4k次。(一)名称解释fsimage,namenode的元数据镜像文件,保存在磁盘editlog,namenode操作日志fstime,最近一次的checkpoint时间metadata,一个文件存储在哪些DataNode节点的哪些位置的元数据信息NN,namenodeSNN,secondarynamenode......
2024-01-24 06:12 阅读 阅读全文文章浏览阅读3.4k次。(一)名称解释fsimage,namenode的元数据镜像文件,保存在磁盘editlog,namenode操作日志fstime,最近一次的checkpoint时间metadata,一个文件存储在哪些DataNode节点的哪些位置的元数据信息NN,namenodeSNN,secondarynamenode......
2024-01-24 06:14 阅读 阅读全文HDFS是Apache Hadoop项目的一部分,是一个分布式文件系统,用于存储和管理文件,能提高超大文件的访问和存储速度。HDFS采用一次写入多次读取的流式数据访问模式保证了数据的一致性。HDFS是一个高度容错性的系统,适合部署在......
2024-01-24 20:41 阅读 阅读全文文章浏览阅读4.1k次,点赞36次,收藏17次。 大家好,我是不温卜火,昵称来源于成语—不温不火,本意是希望自己性情温和。作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己......
2024-01-24 06:00 阅读 阅读全文前言初看这个标题,可能很多人会心生疑问:符号链接和硬链接是什么意思?这些概念不是在Linux操作系统下才有的嘛,HDFS目前也有?当然大家可能还会有其他疑问,没关系,在后面的内容讲述中答案会一一揭晓。归纳起来一句......
2023-10-13 07:35 阅读 阅读全文文章浏览阅读514次。Datanode块扫描器各个datanode运行一个块扫描器,定期检测节点上的所有块,从而在客户端读到坏块之前及时检测和修复坏块。可以依靠DataBlockScanner所维护的块列表依次扫描块,查看是否存在校验和错误。扫描......
2024-01-24 06:25 阅读 阅读全文