NLP11-基于Gensim的文本相似性挖掘[LsiModel]_nlp 从文本中挖掘相似短语-CSDN博客

网站介绍：文章浏览阅读1.1w次，点赞6次，收藏8次。摘要：通过对数据的抓取，基于jieba分词，去掉停用词，运用Gensim建立词典，生成BOW语料，运行tfidf模型计算词权重，采用LsiModel进行降维，最后运用Gensim提供的MatrixSimilarity类来计算两文档的相似性【基于余弦的距离的计算】。1. 爬取数据确定一个内容主题为健康信息类, python的requests包可以对所给的信息URL进行请求并抓取，可采用beautifu_nlp 从文本中挖掘相似短语