网站介绍:文章浏览阅读743次。tf-idf针对用户的微博内容进行用户的关键词提取,作为每个用户打标签的数据基础。 tf-idf原理参见百度百科项目实现流程整个项目实现流程主要有三步: 1. 遍历data文件夹下的所有最后一次调用时间戳后的id_post(id和微博内容)新文件,计算tf和idf,单独存入本地data/tf和idf下(一个id_post文件对应一个tf和idf文件) 2. 汇总每个idf文件成为一个最终的id_tf-idf多个doc
- 链接地址:https://blog.csdn.net/sadfasdgaaaasdfa/article/details/51424671
- 链接标题:tf-idf doc_tf-idf多个doc-CSDN博客
- 所属网站:blog.csdn.net
- 被收藏次数:781
- 网站标签:tf-idf多个doc