基于Spark的网站日志分析-CSDN博客

网站介绍:文章浏览阅读668次。本文只展示核心代码,完整代码见文末链接。Web Log Analysis提取需要的log信息,包括time, traffic, ip, web address进一步解析第一步获得的log信息,如把ip转换为对应的省份,从网址中提取出访问内容和内容ID,最后将信息转换为parquet格式。(1)按日期和内容(video)的ID进行分组,并根据访问次数进行倒序排序。(2)按日期,内容(vi..._基于spark的电商网站日志分析