8eec31bfcceb77ea09c77a5e0a51c7cb.png

无监督学习

1 无监督学习基本原理

无监督学习:从无标注的数据中学习数据的统计规律或者说内在结构的机器学习,主要包括聚类、降维、概率估计,对应的输出是类别,转换,概率

无监督学习的模型:函数

equation?tex=z%3Dg_%7B%5Ctheta%7D%28x%29(硬聚类),条件概率分布
equation?tex=P_%7B%5Ctheta%7D%28z%7Cx%29(软聚类)或条件概率分布
equation?tex=P_%7B%5Ctheta%7D%28x%7Cz%29(概率模型估计)

定义训练数据集

equation?tex=X

equation?tex=X%3D%5Cleft%5B+%5Cbegin%7Bmatrix%7D++x_%7B11%7D+%26+%5Ccdots+%26+x_%7B1N%7D+++++++%5C%5C++%5Cvdots+%26++++++++%26+%5Cvdots+%09%09%5C%5C++x_%7BM1%7D+%26+%5Ccdots+%26+x_%7BMN%7D+++++++%5C%5C+%5Cend%7Bmatrix%7D+%5Cright%5D+%5C%5C

其中,

equation?tex=x_%7Bij%7D表示第
equation?tex=j个向量的第
equation?tex=i维;
equation?tex=i%3D1%2C2%2C%5Cdots%2CM
equation?tex=j%3D1%2C2%2C%5Cdots%2CN

训练数据可以用

equation?tex=M%5Ctimes+N矩阵表示,矩阵的每一行对应特征,每一列对应一个样本

2 聚类

发现数据集

equation?tex=X中的
纵向结构,输入空间为
equation?tex=X,输出空间为类别集合
equation?tex=Z%3D+%5C%7B1%2C2%2C%5Cdots%2Ck%5C%7D

硬聚类:一个样本只能属于一个类,

equation?tex=z%3Dg_%5Ctheta%28x%29

软聚类:一个样本可以属于多个类,

equation?tex=P_%5Ctheta%28z%7Cx%29

3 降维

发现数据中的横向结构,输入空间为欧式空间

equation?tex=X%5Csubseteq+%5Cmathbb%7BR%7D%5Ed,输出空间同为欧式空间
equation?tex=Z%5Csubseteq+%5Cmathbb%7BR%7D%5E%7Bd%5E%5Cprime%7D

降维:

equation?tex=z%3Dg_%5Ctheta%28x%29

equation?tex=x%5Cin+X 是样本的高维向量

equation?tex=z%5Cin+Z 是样本的低维向量

equation?tex=%5Ctheta 是参数

equation?tex=g 可以是线性函数,也可以是非线性函数

4 概率模型估计

训练数据由一个概率模型生成,由训练数据学习模型的结构和参数

概率模型包括混合模型(高斯混合模型等)和概率图模型(有向图模型、无向图模型)等

概率模型可以表示为

equation?tex=P_%5Ctheta%28x%7Cz%29

其中

equation?tex=x表示观测数据,可以是连续变量也可以是离散变量;
equation?tex=z表示隐式结构,是离散变量;当模型是混合模型时,
equation?tex=z表示成分的个数,当模型是概率图模型时,
equation?tex=z表示图的结构;随机变量
equation?tex=%5Ctheta表示参数;

软聚类也可以看作概率估计的问题,根据贝叶斯公式:

equation?tex=P%28z%7Cx%29%3D%5Cfrac%7BP%28z%29P%28x%7Cz%29%7D%7BP%28x%29%7D%5Cpropto+P%28z%29P%28x%7Cz%29

其中,先验

equation?tex=P%28z%29服从均匀分布,故只需估计出条件概率
equation?tex=P_%5Ctheta%28x%7Cz%29进行软聚类

5 聚类算法三要素

  • 模型:
    函数
    equation?tex=z%3Dg_%7B%5Ctheta%7D%28x%29(硬聚类),条件概率分布
    equation?tex=P_%7B%5Ctheta%7D%28z%7Cx%29(软聚类)或条件概率分布
    equation?tex=P_%7B%5Ctheta%7D%28x%7Cz%29(概率模型估计)
  • 策略聚类样本与所属类别中心距离的最小化,降维过程信息损失的最小化,概率模型估计过程中生成数据概率的最大化
  • 算法
    通常是迭代算法,如梯度下降

无监督分类:

硬聚类:层次聚类法、k均值聚类

软聚类:高斯混合模型EM算法

降维:主成分分析、奇异值分解、潜在语义分析

概率模型估计方法:概率潜在语义分析、潜在狄利克雷分配

话题分析:

话题分析是文本分析的一种技术。给定一个文本集合,话题分析旨在发现文本集合中每个文本的话题,而话题由单词的集合表示。前提是有足够数量的文本。

话题分析可以形式化为:概率模型估计问题和降维问题。

话题分析方法:潜在语义分析、概率潜在语义分析、潜在狄利克雷分配、马尔可夫链蒙特卡罗法。

话题表示为单词的概率分布,文本表示为话题的概率分布。直观上,一个话题包含语义相似的单词,一个文本表示若干个话题。

图分析:

图数据表示实体之间的关系,图分析目的是发掘隐藏在图中的统计规律和潜在结构,链接分析是图分析的一种,如Pagerank算法。

Pagerank算法是求解马尔可夫链(在图上的随机游走)的平稳分布。一个节点的平稳分布(节点的Pagerank值)表示该节点的重要性。

参考

  1. 李航-统计学习方法
  2. 李航-统计学习方法笔记:https://github.com/SmirkCao/Lihang
Logo

一站式 AI 云服务平台

更多推荐