受压缩感知启发斯坦福 AI 研究院提出新的无监督表示学习框架最新消息

雷锋网 AI 科技评论按：如今，说到影象领域的生成式模型，大家往往会想到对抗生成网络（GAN）和自编码器（AE）。本文介绍了斯坦福 AI 研究院的研究人员如何从统计压缩感知技术中汲取灵感设计出的非确定性自编码器（该编码器在自编码器的潜在空间中对不确定性进行建模），并巧妙地使用变分技术为其设计目标函式，相较于传统方法，该模型的效能有巨大的提升。斯坦福 AI 研究院将这一成果进行了介绍，雷锋网 AI 科技评论编译如下。

压缩感知技术能够通过低维投影有效地采集和恢复稀疏的高维资料讯号。我们在 AISTATS 2019发表的一篇论文中提出了非确定性自编码器（UAE），把低维投影作为自编码器的带噪声的潜在表示，并通过一个可跟踪的变分资讯最大化目标直接对讯号取样（即编码）和逐步恢复（即解码）的过程进行学习。实验表明，我们在高维资料的统计压缩感知任务中相较于其他方法的效能平均提高了 32% 。

无监督表示学习的广泛目标是学习对输入的资料进行变换，从而简便地捕获到资料分布统计的根本特性。在之前的工作中，研究人员已经从潜变数生成建模、降维和其他角度出发，提出了大量的学习目标和算法。在本文中，我们将介绍一个受压缩感知启发而设计出的新的无监督表示学习框架。首先，我们将从统计压缩感知谈起。

统计压缩感知能够高效地采集和精确地恢复高维资料的系统构成了压缩感知的基础。这些系统得到了广泛的应用。例如，压缩感知技术已经被成功地用于了包括“设计节能的单画素摄像头”和“加快核磁共振医学成像扫描时间”在内的广泛的应用领域。

压缩感知的工作流程由两部分组成：

采集（acquisition）：一个从高维讯号到测量资料的对映

其中 ϵ 代表测量过程中任意的外部噪声。当 m 远小于 n 时，我们称采集过程是高效的。

恢复（recovery）：一个从测量资料 y 到恢复的资料讯号的对映。当归一化损失（例如）很小时，恢复的过程是精确的。在 标准的压缩感知过程中，采集对映 f 在 x 中是典型的线性变换（即对于某个矩阵， f(x)=Wx）。在这样的情况下，由于我们拥有的变数数（n）比常量数（m）多，所以该系统是未确定的。为保证得到唯一的、有意义的恢复结果，我们假设讯号在一个合适的基上（例如，用于音讯资料的傅立叶基、用于影象资料的小波基）是稀疏的。然后，通过某些型别的随机矩阵进行讯号采集，并通过求解 LASSO 优化方法进行讯号恢复，这样便只需使用少量测量资料（大概是资料维度的对数）就能保证以很高的概率得到唯一的恢复结果。

在这项工作中，我们考虑统计压缩感知的情况，其中我们可以访问一个训练资料讯号 x 的资料集 D。我们假设对于某些未知的资料分布 q_data，有。在训练时：

1. 自然环境向智慧体提供一个有限的高维讯号资料集 D。

2. 智慧体通过优化一个恰当的目标来学习讯号采集和恢复的对映 f 和 g。

在测试时：

1.对于一个或多个测试讯号而言，自然环境向智慧体提供压缩后的测量资料。

2.智慧体恢复出讯号，并引入一个L2 范数损失。

为了实现这个过程，智慧体的任务是选取讯号采集和恢复的对映 f 和 g，从而最小化测试损失。

非确定性自编码器实际上，在仅仅根据测量资料 y 恢复出讯号 x 时，即使智慧体可以选出一个讯号采集对映 f，仍有两个不确定性的来源。其一是由于随机的测量噪声 ϵ 引起的。其次，讯号采集对映 f 通常被引数化为一个精度有限的受限对映族（例如，在标准压缩感知中的线性对映或更一般化的神经网络）。假设测量资料 y 的维度比讯号 x 的维度要小，即使没有噪声，这样的限制也会阻碍我们学到一个双射对映。在 f 为线性对映的说明样例中，我们确信不可能实现完全精确的恢复。那么还有什么高效的方式来采集资料呢？在下图中，我们考虑了一个真实资料分布是由两个沿正交方向延伸的二维高斯分布的混合分布的简单情况。我们从这个混合分布中取样出了 100 个点（黑色的点），并考虑了两种将这些资料点的维数降低到一维的方法。

第一种方法是使用主成分分析（PCA）将资料沿着最能导致资料中的变化的方向进行投影。对于上述的二维混合高斯分布的情况，这种方法是通过洋红色线上的蓝点表示的。这条洋红色的线捕获了资料中大部分的变化，但是它将从右下角的高斯分布中取样得到的资料压缩到了一个狭窄的区域中。当多个数据点在低维空间被压缩成重叠的、密集的聚类区域时，在恢复（recovery）过程中就很难消除低维投影与原始资料点之间的关联。

或者，我们可以考虑在绿色的座标轴上投影（红色的点）。这些投影结果更加分散，这表明恢复过程更加容易（即使与 PCA 相比，这样做会增加投影空间的总方差）。接下来，我们提出了“UAE”框架，它能够精确地学习上面提到的低维投影，使恢复更加准确。

从概率意义上说，讯号 x 和测量资料 y 的联合分布可以表示为。例如，如果我们将噪声建模为中心各向同性高斯分布，那么似然概率就可以被表示为。为了学习在存在不确定性的情况下最有利于恢复的引数，我们考虑下面的目标函式：

上面的目标函式最大化了从测量资料 y 中恢复出讯号 x 的对数后验概率，这与上面提到的智慧体在测试时的目标是一致的。

变分资讯最大化或者，你可以将上述过程解释为最大化讯号 x 和测量资料 y 之间的互资讯。为了检视二者之间的联络，请注意资料熵 H（x）是一个常量，它不会影响优化过程。因此，我们可以将目标函式改写为：

遗憾的是，在当前的情况下，估计（和优化）互资讯是十分困难和棘手的。为了克服这个困难，同时也能快速地进行恢复，我们建议使用一个互资讯变分下界的平摊变体。

特别地，我们考虑一个真实后验概率的引数化的变分近似。在这里，表示变分引数。将这个近似带入变分分布会给出如下所示的原始目标函式的变分下界：上面的表示式定义了非确定性自编码器的学习目标，其中资料采集过程可以被看作对资料讯号进行编码，而恢复过程则相当于根据测量资料解码出资料讯号。

案例分析实际上，“UAE”目标函式的期望值是通过蒙特卡洛方法来估计的：资料讯号 x 是从训练资料集 D 中取样得到的，测量资料 y 是从一个允许重引数化的假设的噪声模型（各向同性的高斯分布）中取样得到的。根据对恢复过程的准确度的度量，我们可以在平摊变分分布（例如，方差固定为 l2，拉普拉斯算子固定为 l1 的高斯分布）上做出分布假设，并通过恢复对映将测量资料 y 对映到的充分统计量上。举例来说，不妨考虑一个带有已知的标量方差的各向同性的高斯噪声模型。如果我们令变分分布也为一个带有固定的标量方差的各向同性高斯分布，我们将通过非确定性自编码器（UAE）得到如下所示的最大化目标函式：

其中 c 为独立于 φ 和 θ 的正归一化常数。

非确定性自编码器 VS 常用的自编码器除了对统计压缩感知的提升，非确定性自编码器（UAE）为无监督表示学习提供了一种替代框架，其中压缩的测量值可以被解释为潜在的表示。下面，我们将讨论 UAE 与常用的自编码器在计算方法上有何异同。

标准的自编码器（AE）：当潜在空间中没有任何的噪声时，UAE 的学习目标函式就会退化为 AE 的目标函式。

去躁自编码器（DAE）：DAE 在观测空间中新增噪声（例如，向资料讯号新增噪声），然而 UAE 则是在潜在空间中对不确定性建模。

变分自编码器（VAE）：变分自编码器将潜在空间正则化，使其遵循一个先验分布。而在 UAE 中则没有显式的先验，因此在潜在空间上没有 KL 散度正则项（而原始论文中没有对此进行讨论，UAE 的目标函式可以看做 β=0 时的 β-VAE 的特例）。这样就避免了使用 VAE 使存在的问题：使用强大的解码器会忽略潜在的表示。

那么 UAE 是否能像 DAE 和 VAE 那样，可以进行样本外的泛化呢？答案是肯定的！在恰当的假设下，我们说明了 UAE 学到了一个隐式的资料讯号分布的生成模型，它可以被用来定义一个马尔科夫链蒙特卡洛（MCMC）取样。更多细节请参阅论文“Uncertainty Autoencoders: Learning Compressed Representations via Variational Information Maximization”中的定理 1 和推论 1。