大数据 (016)Hadoop-MR编程 -- 【使用hadoop计算微博用户可能喜欢的关键词----编程】_马程钟微博-CSDN博客

网站介绍:文章浏览阅读2.2w次,点赞2次,收藏14次。一、前言 以微博为例,每个用户会发很多微博,其中包含了很多关键词信息。而这些关键词就是用户可能感兴趣的事物。我们需要用Hadoop MapperReduce计算出来。折旧引出了文档加权算法。其含义就是计算文档中某关键词的权重,我们使用该权重来判断某用户对某关键词的依赖程度。理想状况下,权重越高,用户越依赖于某关键词。其算法如下图所示。二、源数据 那么_马程钟微博