tf-idf doc_tf-idf多个doc-CSDN博客

网站介绍:文章浏览阅读743次。tf-idf针对用户的微博内容进行用户的关键词提取,作为每个用户打标签的数据基础。 tf-idf原理参见百度百科项目实现流程整个项目实现流程主要有三步: 1. 遍历data文件夹下的所有最后一次调用时间戳后的id_post(id和微博内容)新文件,计算tf和idf,单独存入本地data/tf和idf下(一个id_post文件对应一个tf和idf文件) 2. 汇总每个idf文件成为一个最终的id_tf-idf多个doc