文章浏览阅读5.4k次。1 聚类分析基本概念聚类分析将数据划分成有意义或有用的簇。如果目标是划分成有意义的组,则簇应当捕获数据的自然结构。 聚类分析是一种分类的多元统计分析方法。按照个体或样品的特征将它们分类......
2024-01-23 10:41 阅读 阅读全文文章浏览阅读4.8k次,点赞4次,收藏29次。原文链接:http://proceedings.mlr.press/v48/xieb16.pdf基于神经网络的具体算法DEC一、简介聚类特别依赖特征空间的选择;先前很少有研究来解决用于聚类的特征空间学习问题;本文提出了一种称......
2024-01-25 05:13 阅读 阅读全文文章浏览阅读540次。BisectingKMeansclass pyspark.ml.clustering.BisectingKMeans(featuresCol=‘features’, predictionCol=‘prediction’, maxIter=20, seed=None, k=4, minDivisibleClusterSize=1.0, distanceMeasure=‘euclidean’)一种基于 Steinbach、Karypis 和 Kumar 的论文“文档聚......
2024-01-23 02:04 阅读 阅读全文文章浏览阅读4.1k次。PowerIterationClusteringclass pyspark.ml.clustering.PowerIterationClustering(k=2, maxIter=20, initMode=‘random’, srcCol=‘src’, dstCol=‘dst’, weightCol=None)幂迭代聚类 (PIC),一种由 Lin 和 Cohen 开发的可扩展图聚类算法。 从摘要中:PIC ......
2024-01-23 01:59 阅读 阅读全文文章浏览阅读256次。Intro 工作中用到了meanshift,不追溯太复杂的原理以及各种算法变体,原始paper等等。只从概念上,对原理做简要的总结和介绍。主要逻辑,参考sklearn的源码。和常用k-means一样,meanshift也是一个迭代算法。......
2024-01-23 00:46 阅读 阅读全文文章浏览阅读459次。与回归与分类不同,聚类是无监督学习算法,无监督指的是只需要数据,不需要标记结果,试图探索和发现一些模式。比如对用户购买模式的分析(用户的行为、地址)、图像颜色分割(图像边缘)、邮件聚......
2024-01-23 09:09 阅读 阅读全文文章浏览阅读1.2k次。这里介绍 Kmeans 聚类算法,K-Means 聚类算法在之前就介绍过,只不过哪个时候用的是 mahout算法的原理和过程不再介绍了,在 NLP 专栏可以找到,不再累述,主要是这里增加了一个聚类结果可视化工具 TSNE,它的......
2024-01-23 23:25 阅读 阅读全文文章浏览阅读1.1k次。K-Means(K均值)聚类算法步骤:(1) 首先我们选择一些类/组,并随机初始化它们各自的中心点。中心点是与每个数据点向量长度相同的位置。这需要我们提前预知类的数量(即中心点的数量)。(2) 计算每个数据点......
2024-01-24 06:27 阅读 阅读全文文章浏览阅读6k次,点赞3次,收藏13次。之前写算法太侧重于理解和推导,后面的算法将更侧重于在sklearn中使用和官方数据集测试,本篇讲聚类,聚类是一类算法的统称,属经典的无监督学习,无需样本训练得到模型后再适用于......
2024-01-22 23:16 阅读 阅读全文文章浏览阅读1.7w次,点赞2次,收藏13次。k-means算法是一种典型的基于距离的算法,它以距离作为评价相似度的指标。两个对象的距离越近,则相似度也就越大。其算法步骤如下:1.随机选取K个聚类中心点。基于这k个中心点计算......
2024-01-23 23:24 阅读 阅读全文