NLP11-基于Gensim的文本相似性挖掘[LsiModel]_nlp 从文本中挖掘相似短语-CSDN博客

网站介绍:文章浏览阅读1.1w次,点赞6次,收藏8次。摘要:通过对数据的抓取,基于jieba分词,去掉停用词,运用Gensim建立词典,生成BOW语料,运行tfidf模型计算词权重,采用LsiModel进行降维,最后运用Gensim提供的MatrixSimilarity类来计算两文档的相似性【基于余弦的距离的计算】。1. 爬取数据确定一个内容主题为健康信息类, python的requests包可以对所给的信息URL进行请求并抓取,可采用beautifu_nlp 从文本中挖掘相似短语