资源浏览查阅112次。以慕课网日志分析为例进入大数据SparkSQL的世界用户行为日志加浏览器用户行为日志spark日志分析更多下载资源、学习资料请访问CSDN文库频道....
2024-01-23 23:42 阅读 阅读全文文章浏览阅读5.4k次。1.Spark SQL 概述(1)为什么需要SQL1)事实上的标准2)简单易学Hive:类似于sql的Hive QL语言 sql==>mapreduce 特点:基于mapreduce 改进:基于tez sparkSpark:分布式的基于内存的计算框架hive on spark ==> shark......
2024-01-23 23:41 阅读 阅读全文文章浏览阅读143次。1.从hdfs上读取数据val jsonStrRdd=fileRdd.map(x=>x.split('|')).map(x=>(x(0),x(1)))2.数据分割,转换成dataFrame。Id字段加入到最后val jsonStrRdd=fileRdd.map(x=>x.split('|')).map(x=>(x(0),x(1)))val rdd=jsonStrRdd.map(x=>{varjsonStr=x._2;json......
2024-01-23 12:49 阅读 阅读全文文章浏览阅读5k次。1. HDFS架构1 Master(NameNode/NM) 带 N个Slaves(DataNode/DN)HDFS/YARN/HBase 1个文件会被拆分成多个Block NN:1)负责客户端请求的响应2)负责元数据(文件的名称、副本系数、Block存放的DV)的管理 DN:1)存储用户的文件......
2024-01-23 23:41 阅读 阅读全文文章浏览阅读1.7k次。第一章 初探大数据 1、什么是大数据? 大数据特征:4V 数据量(Volume) PB、EB、ZB 给予高度分析的新价值(Value) 巨额数据里面提取需要的高价值数据 速度(Velocity) 实时流处理,电商推荐系统,在你浏览或......
2024-01-23 23:41 阅读 阅读全文文章浏览阅读134次。您现在访问的是微软AZURE全球版技术文档网站,若需要访问由世纪互联运营的MICROSOFT AZURE中国区技术文档网站,请访问 https://docs.azure.cn.将自定义 Python 库与 HDInsight 上的 Apache Spark 群集配合使用来分析网站日......
2024-01-22 22:05 阅读 阅读全文文章浏览阅读668次。本文只展示核心代码,完整代码见文末链接。Web Log Analysis提取需要的log信息,包括time, traffic, ip, web address进一步解析第一步获得的log信息,如把ip转换为对应的省份,从网址中提取出访问内容和内容ID,最后......
2024-01-23 23:42 阅读 阅读全文文章浏览阅读147次。1.Hadoop架构官方网址hadoop.apache.org/对于Apache项目来说,projectname.apache.orgHadoop:hadoop.apache.orgHive:hive.apache.orgSpark:spark.apache.orgHBase:hbase.apache.org为什么很多公司选择Hadoop作为大数据的解决方案源码..._sparksql慕课网cs......
2024-01-23 23:41 阅读 阅读全文文章浏览阅读595次。以慕课网日志分析为例 进入大数据 Spark SQL 的世界这篇blog是这个项目的总结,因为从别的地方学习过Hadoop、Spark的一些基础知识了,所以这部分略过。针对自身的不足,我抛出一些问题,自己思考。什么是大......
2024-01-23 23:41 阅读 阅读全文文章浏览阅读1.8k次。1 需求使用echarts可视化工具将之前统计好的数据进行展示。2 开发环境IDEA+mavenspring boot + ECharts3 编程代码地址1)pom.xml,添加依赖<repositories> <repository> <id&am......
2024-01-23 23:42 阅读 阅读全文