网站介绍:文章浏览阅读1.1w次,点赞6次,收藏8次。摘要:通过对数据的抓取,基于jieba分词,去掉停用词,运用Gensim建立词典,生成BOW语料,运行tfidf模型计算词权重,采用LsiModel进行降维,最后运用Gensim提供的MatrixSimilarity类来计算两文档的相似性【基于余弦的距离的计算】。1. 爬取数据确定一个内容主题为健康信息类, python的requests包可以对所给的信息URL进行请求并抓取,可采用beautifu_nlp 从文本中挖掘相似短语
- 链接地址:https://blog.csdn.net/ld326/article/details/78508162
- 链接标题:NLP11-基于Gensim的文本相似性挖掘[LsiModel]_nlp 从文本中挖掘相似短语-CSDN博客
- 所属网站:blog.csdn.net
- 被收藏次数:3961
- 网站标签:nlp 从文本中挖掘相似短语