Python机器学习——Agglomerative层次聚类

2023-01-10 13:05:57

层次聚类（hierarchical clustering）可在不同层次上对数据集进行划分，形成树状的聚类结构。AggregativeClustering是一种常用的层次聚类算法。
其原理是：最初将每个对象看成一个簇，然后将这些簇根据某种规则被一步步合并，就这样不断合并直到达到预设的簇类个数。这里的关键在于：如何计算聚类簇之间的距离？
由于每个簇就是一个集合，因此需要给出集合之间的距离。给定聚类簇 $C_i,C_j$ ，有如下三种距离：

最小距离： $d m i n (C i, C j) = min x ⃗ i \in C i, x ⃗ j \in C j d i s t a n c e (x ⃗ i, x ⃗ j)$ $d_{min}(C_i,C_j)=\min_{\vec{x}_i\in C_i,\vec{x}_j\in C_j}distance(\vec{x}_i,\vec{x}_j)$ 它是两个簇的样本对之间距离的最小值。
最大距离： $d m a x (C i, C j) = max x ⃗ i \in C i, x ⃗ j \in C j d i s t a n c e (x ⃗ i, x ⃗ j)$ $d_{max}(C_i,C_j)=\max_{\vec{x}_i\in C_i,\vec{x}_j\in C_j}distance(\vec{x}_i,\vec{x}_j)$ 它是两个簇的样本对之间距离的最大值。
平均距离： $d a v g (C i, C j) = 1 | C i | | C j | \sum x ⃗ i \in C i \sum x ⃗ j \in C j d i s t a n c e (x ⃗ i, x ⃗ j)$ $d_{avg}(C_i,C_j)=\frac{1}{|C_i||C_j|}\sum_{\vec{x}_i\in C_i}\sum_{\vec{x}_j\in C_j}distance(\vec{x}_i,\vec{x}_j)$ 它是两个簇的样本对之间距离的平均值。

当该算法的聚类簇采用 $d_{min}$ 时，称为单链接single-linkage算法，当该算法的聚类簇采用 $d_{max}$ 时，称为单链接complete-linkage算法，当该算法的聚类簇采用 $d_{avg}$ 时，称为单链接average-linkage算法。

下面给出算法：

输入：
- 数据集 $D=$ { $\vec{x}_1,\vec{x}_2,...,\vec{x}_N$ }
- 聚类簇距离度量函数
- 聚类簇数量 $K$
输出：簇划分

作者：一叶_障目
原文链接：https://blog.csdn.net/Haiyang_Duan/article/details/77995665
更新时间：2023-01-10 13:05:57

相关文章

C ++ STL中的list_empty()和list_size()
在本文中，我们将讨论C ++ STL中list::empty()和list::size()函数的工作，语法和示
2023-11-16

Java 9中Collectors.filtering()方法的重要性
收集器类是Stream API的重要组成部分。在Java 9中，新方法：filter()添加到了Collect
2023-11-16

Java中continue和break语句之间的区别
我们知道在编程中代码的执行是逐行完成的。现在，为了更改该流程，C ++提供了两个语句break和coninue
2023-11-18

Java和JavaScript之间的区别。
众所周知，Java和javascript都是编程语言，并在应用程序开发中使用。但是我们将在下面讨论的两种语言之
2023-11-18

随机文章

C语言计算字符串长度的几种方法
C语言计算字符串长度的几种方法
2022-06-26

java service mapper,解决Java普通Utils类（非Contro
在写一个敏感词过滤器Util的时候，需要注入mapper来进行数据库查询所有的敏感词，然后就向ServiceI
2022-06-26

SpringBoot实现在线用户数统计功能
@RestController//第一步：实现HttpSessionListener接口public clas
2022-06-26

使用AopContxt.currentProxy()方法获取当前类的代理对象
常规使用SpringAOP功能，都是对一个Service中的B方法进行切入记录日志，这些时候AOP是能起作用的
2022-06-26

文章导航

热门标签

VPN BGP 华为 DHCP 组播 ISIS NAT 交换机 H3C 交换 TCP RADIUS LDP 链路聚合网络工程师小助手路由 QOS IPV6 IGMP CCNA视频教程 MPLS Vlan STP Wireshark PIM BGP选路 LACP IP GPON OSPF

最新文章

PHP范围解析运算符（：:)
介绍在PHP中，双冒号::定义为Scope Resolution Operator。
2023-11-18

完全删除数组中的多余元素-JavaScript
我们需要编写一个函数，该函数接受一个数组并返回一个新数组，该数组已删除了所有重复值。
2023-11-18

在不使用库函数的情况下使用真实/伪造的值展平数组-JavaScript
我们需要编写一个JavaScript数组函数，该函数接受具有伪造值的嵌套数组，并返回
2023-11-18

JavaScript在数组的伪索引处插入元素方法详解
我们需要编写一个Array函数，比如pushAtFalsy()，该函数应该包含一个数
2023-11-18

PHP整数数据类型
定义和用法在PHP中，Integer是标量数据类型，代表数字常量，代表整数，不带任何
2023-11-18

PHP错误控制运算符
介绍在PHP中，将@符号定义为错误控制运算符。当它以任何表达式为前缀时，PHP解析器
2023-11-18

PHP类型杂耍详解
定义和用法PHP被称为动态类型语言。在PHP中既不需要也不支持变量的显式类型声明。与
2023-11-18

PowerShell版本7中引入了哪些新的Null运算符？
PowerShell版本7引入了一些新的空运算符。它们如下。空合并运算符-??空条件
2023-11-18

PowerShell中$ ErrorView的用途是什么？
$Errorview变量确定PowerShell中错误消息的显示格式。在PowerS
2023-11-18

PHP执行运算符
介绍PHP中定义了一个执行运算符。一个字符串内部背蜱S（``）被视为一个DOS命令（
2023-11-18

Copyright © 2022 忙忙碌碌网
把实用的技术和经验，分享给最需要的读者，希望每一位来访的朋友都能有所收获！

文章目录