标题相似度匹配_大数据 标题 相似度-CSDN博客

网站介绍:文章浏览阅读1.4k次。本篇是基于word2vet计算余弦相似度得到的相似度的值基本流程1、获取数据集(数据)2、数据预处理(分词、去停用词等) 滴滴:如果文本太短的话可以考虑不去除停用词获取效果好点哦 视情况而定 不要过于死板3、获取句向量(词向量加权求平均)4、余弦相似度计算我用的是百度百科已经训练好的词向量如有需要自行下载哦↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓百科词向量文件提取码: a4ex停用词文件就不上传了,是自己创建的停用词表,根据数据而定的不具有通用性,一般下载开源的也可以读取停用词# 停用词的_大数据 标题 相似度