【Machine Learning】从零开始,了解无监督学习的方法
in 科学人工智能AI with 2 comments

【Machine Learning】从零开始,了解无监督学习的方法

in 科学人工智能AI with 2 comments

什么是无监督学习

无监督学习没有教师,需要学习器自身形成(form)和评价(evaluate)概念。

科学是人类中无监督学习最好的例子,因为科学家没有教师的指点,他们提出假设来解释现象,并设计实验来验证假设。

hypothesis -> generality -> conclusion

发现和无监督学习

2.1 Automated Mathematician(AM)

BACON

SCAVENGER

用ID3算法的一个变种来改进它形成类比的能力。

聚类分析

什么是聚类分析

Cluster analysis or clustering is the task of grouping a set of objects in such a way that objects in the same group (called a cluster) are more similar (in some sense or another) to each other than to those in other groups (clusters). -from wikipedia

10.png

:computationally difficult problem (NP-hard)

相似性(similarity)的定义

9.jpg

聚类在生活中的应用

类别对于人类如何分析和描述世界起了至关重要的作用,人类其实非常擅长做分类,一个小孩子就可以将熟悉的事物分为建筑、机动车、动物、植物.......

不同类型的Clustering

层次聚类 vs 划分聚类

被讨论的最多的区分不同聚类类型的依据就是看被划分好的这些clusters是嵌套的(nested)还是非嵌套的(untested),或者更通俗点说,是hierarchical还是partitional.

8.png

4.png

互斥聚类 vs 重叠聚类 vs 模糊聚类

完全聚类 vs 部分聚类

不同类型的Cluster

在很多实际应用中,cluster的概念并没有一个很好的定义。为了更好的理解决定一个cluster由什么构成的困难性,我们在下图展示了同样的20个点,用三种不同的方法去把它们划分到不同的clusters。

2.png

The notion of cluster is important

上图阐明了其实一个cluster的定义不是精确的,固定不变的。对于cluster最好的定义依赖于数据的性质和预期结果。

聚类(Clustering)的目标是要找到一组有意义的对象(object)或者说cluster。 这里所说的有意义或者说有用,是针对数据分析的目标而言的。毫无悬念,在实际当中已经有一些不同的对于cluster的概念,被证明是有意义的,具体如下:

明显分离的(Well-Separated)

不同组中的任意两点之间的距离都大于组内任意两点之间的距离。明显分离的簇不必是球形的,可以具有任意形状。

7.png

基于原型的(Prototype-Based /center-based clusters)

簇是对象的集合,其中每个对象到定义该簇的原型的距离比到其他簇的原型的距离更近(或更加相似)。对于具有连续属性的数据,簇的原型通常是质心,即簇中所有点的平均值。这种簇倾向于呈球状。基于原型的聚类技术创建数据对象的单层划分。

5.png

基于图的(Graph-Based)

如果数据用图表示,其中节点是对象,而边代表对象之间的联系,则簇可以定义为连通分支,即互相连通但不与组外对象连通的对象组。当簇不规则或缠绕时,簇的这种定义是有用的。但是,当数据具有噪声时就可能出现问题。也存在其他类型的基于图的簇。一种方法是定义簇为团,即图中相互之间完全连接的节点的集合。

6.png

基于密度的(Density-Based)

簇是对象的稠密区域,被低密度的区域环绕。当簇不规则或互相盘绕,并且有噪声和离群点时,常常使用基于密度的簇定义。

11.png

共同性质的/概念簇(Shared-Property /Conceptual Clusters)

把簇定义为有某种共同性质的对象的集合。发现这样的簇的过程称作概念聚类。

3.png

K-means 简介

1.png

(完)

Responses
  1. 机器学习

    Reply
  2. 机器学习

    Reply