Tag Archives: Regularization

深度学习正则化系列8:对抗训练、切线距离与切线传播和流形切线分类器

《Deep Learning》Chapter 7
Regularization for Deep Learning
翻译水平有限,如有错误请留言,不胜感激!

 

7.13 对抗训练

在许多情况下,当在独立同分布的测试集上评估时,神经网络已经开始达到人类的表现性能。因此会自然想知道这些模型对这些任务是否达到同人类一样的理解能力。为了探索网络对底层任务的理解水平,我们可以研究模型分类错误的样本。Szegedy等人(2014b)发现,性能接近人类的神经网络在某些样本点上具有接近 $100%$ 的误差率,这些样本点是使用优化过程搜索到的数据点,例如搜索到与输入点 $x^{‘}$ 接近的点是 $x$,使得模型输出与在 $x^{‘}$ 样本点处非常不同。在许多情况下, $x^{‘}$ 可以非常近似于 $x$ ,人类观察者不能区分原始样本和对抗样本之间的区别,但是网络可以做出高度不同的预测,参见图7.8的例子。

对抗性样本有许多含义,例如超出本章知识范围的计算机安全方面。然而,它在正则化中很有趣,通过对抗训练训练来自训练集的对抗扰动样本,可以减少原始独立同分步的测试集上的错误率(Szegedy等人,2014b;Goodfellow等人,2014b )。

Continue reading

深度学习正则化系列7:Dropout

《Deep Learning》Chapter 7
Regularization for Deep Learning
翻译水平有限,如有错误请留言,不胜感激!

本文目录

  1. 7.12 Dropout
 

7.12 Dropout

Dropout(Srivastava等人,2014)是一种计算量不大但功能强大的方法,可用来正则一大类模型。第一种近似下,dropout可以被认为是一个方法,使许多大型神经网络能够集成的更实用的Bagging方法。Bagging涉及训练多个模型,并在每个测试样本上评估多个模型。当每个模型是大型神经网络时就不切实际了,因为训练和评估这样的网络在运行时间和所需内存方面的代价大。通常使用五到十个神经网络集成——Szegedy等人(2014a)使用六个神经网络赢得ILSVRC比赛,但超过这个数目会使集成的结果迅速变得笨拙。即使是对指数级数目的神经网络做集成,dropout也是一种低成本的近似训练和评估一个bagged的集成模型的方法。

Continue reading

深度学习正则化系列6:参数绑定和参数共享、稀疏表示、Bagging和其它集成方法

《Deep Learning》Chapter 7
Regularization for Deep Learning
翻译水平有限,如有错误请留言,不胜感激!

 

7.9 参数绑定与参数共享

本章到目前为止,当讨论给参数加入限制或惩罚时,我们总是限定在固定的区域或点中。例如, $L^2$ 正则化(或权重衰减)惩罚模型参数从参数的固定值零的偏离开始。然而,有时可能需要另外能表达关于模型参数合适值的先验知识。有时可能不知道参数应该采用什么值,但是知道从领域和模型架构的知识,这其中应该有一些模型参数之间的依赖关系。

我们经常想要表达的常见类型的依赖性是某些参数应当彼此接近。考虑以下情况:我们有两个模型执行相同的分类任务(具有相同的类集合),但具有稍微不同的输入数据分布。正式地,我们有参数 $w^{(A)}$ 的模型A和具有参数 $w^{(B)}$ 的模型B,两个模型将输入映射到两个不同但相关的输出: $\hat{y}^{(A)} = f(w^{(A)}, x)$ 和 $\hat{y}^{(B)} = g(w^{(B)}, x)$ 。

让我们假设任务是相似的(可能具有类似的输入和输出分布),我们认为模型参数应该彼此接近: $\forall i, w_i^{(A)}$ 应该接近 $w_i^{(B)}$ 。我们可以通过正则化利用这些信息。具体来说,可以使用以下形式的参数规范惩罚: $\Omega (w^{(A)}, w^{(B)}) = || w^{(A)} – w^{(B)} ||_2^{2}$ 。这里我们使用了 $L^2$ 惩罚,但其它选择也是可能的。 Continue reading

深度学习正则化系列5:半监督学习、多任务学习、提前终止

《Deep Learning》Chapter 7
Regularization for Deep Learning
翻译水平有限,如有错误请留言,不胜感激!

 

7.6 半监督学习

所谓半监督学习,是将 $P(x)$ 产生的未标记样本和 $P(x, y)$ 中的标记样本都用于估计 $P(y | x)$ 或根据样本特征 $x$ 来预测其类别 $y$ 。

在深度学习的背景下,半监督学习通常指的是学习表示 $h = f(x)$ 。目标是学习数据表征,使得来自相同类的样本具有类似的数据表征。无监督学习可以为如何在表示空间中分组的样本提供了有用的策略。在输入空间中聚集紧密的样本应能映射到相似的表示。新空间中的线性分类器在许多情况下可以实现更好的泛化(Belkin和Niyogi,2002;Chapelle等人,2003)。这种方法的一个变体是在应用分类器(在投影数据上)之前将主成分分析作为预处理步骤之一。

半监督模型中有着独立的无监督和监督的部分,它由 $P(x)$ 或 $P(x,y)$ 的生成模型与 $P(y|x)$ 的判别模型组成且共享参数。我们可以对无监督或生成模型(例如 $\log P(x)$ 或 $-\log P(x,y)$)对监督模型的标准 $-\log P(y | x)$ 进行平衡。生成模型对监督学习问题的解是一种特殊形式的先验知识(Lasserre等人,2006),即 $P(x)$ 的结构通过某种共享参数的形式连接到 $P(y | x)$ 的结构 。通过控制生成模型中准则占总准则中的比例,可以找到比纯粹是生成模型或完全是判别模型准则进行训练得到更好的(判别与生成模型间的)平衡(Lasserre等人,2006;Larochelle和Bengio,2008)。

Salakhutdinov和Hinton(2008)描述了一种用于学习用于回归问题的核机器的核函数方法,其中使用未标记的样本来建模 $P(x)$ 非常显着地改善了 $P(y | x)$ 。

更多关于半监督学习的信息,请参阅 Chapelle 等人(2006)的文章。

Continue reading

深度学习正则化系列4:正则化和受约束问题、数据集扩充、噪声鲁棒性

《Deep Learning》Chapter 7
Regularization for Deep Learning
翻译水平有限,如有错误请留言,不胜感激!

 

7.3 正则化和受约束问题

在某些情况下,正则化对机器学习问题的正确定义是必要的。机器学习中的许多线性模型,包括线性回归和主成分分析(PCA)的计算都依赖计算翻转矩阵,即 $X^T X$ 。$X^T X$ 是奇异的是不可能的(This is not possible whenever $X^T X$ is singular)。每当数据生成分布在一些方向上确实没有方差时,或者当在一些方向上没有观察到方差时,该矩阵可以是奇异矩阵,因为存在比输入的特征数目( $X$ 的列)更少的样本数( $X$ 的行)。在这种情况下,许多形式的正则化对应于反转 $X^T X + \alpha I$ ,这个正则化矩阵保证是可逆的。

Continue reading

深度学习正则化系列3:约束优化的范数惩罚

《Deep Learning》Chapter 7
Regularization for Deep Learning
翻译水平有限,如有错误请留言,不胜感激!

7.2 约束优化的范数惩罚

考虑参数范数惩罚的代价函数正则化:

$$
\widetilde{J}(\theta; X, y) = J(\theta; X, y) + \alpha \Omega(\theta).
$$

回顾第 4.4 小节中,由于原来的目标函数有一套惩罚,通过构造一个广义的拉格朗日函数,可以使约束函数最小化。每个惩罚相当于一个乘积,乘积由两项构成:一项是被称为Karush–Kuhn–Tucker(KKT)乘子的系数,另一项是用来代表限制条件是否满足的函数。如果我们想要约束 $\Omega(\theta)$ 小于某个常数 $k$ ,我们可以构造一个广义拉格朗日函数:

$$
\mathcal{L} (\theta, \alpha; X, y) = J(\theta; X, y) + \alpha (\Omega(\theta) – k).
$$ Continue reading

深度学习正则化系列2:参数范数惩罚

《Deep Learning》Chapter 7
Regularization for Deep Learning
翻译水平有限,如有错误请留言,不胜感激!

7.1 参数范数惩罚

在深度学习出现之前,正则化已被使用了十几年。线性模型中的线性回归模型、逻辑斯特回归模型都可以使用简单、直接且有效的正则化方法。

许多正则化方法都是基于有限的模型复杂度,如神经网络模型、线性回归模型、逻辑斯特模型,它们都是通过在目标函数 $J$ 中增加一个参数范数惩罚项 $\Omega (\theta)$ ,我们使用 $\widetilde{J}$ 来表示加入正则化的目标函数:
$$
\widetilde{J} (\theta; X, y) = J(\theta; X, y) + \alpha \Omega (\theta)
$$
其中, $\alpha \in [0, \infty)$ 是一个超参数,用来平衡范数惩罚项 $\Omega$ 的贡献度,也与标准的目标函数 $J$ 有关。若将 $\alpha$ 设置为 $0$ ,那么不存在正则化项。更大的 $\alpha$ 值对应更大的正则力度。

 
Continue reading

深度学习正则化系列1:概述

《Deep Learning》Chapter 7
Regularization for Deep Learning
翻译水平有限,如有错误请留言,不胜感激!

机器学习的一个核心问题是如何使算法在除训练集以外的新输入数据上的性能表现更好。机器学习的不少学习策略都被用来去减少测试误差,有的策略会以牺牲训练误差为代价减少测试误差。这些学习策略都统称为正则化方法。对于深度学习从业者来说,有很多正则化的方法可以使用。实际上在深度学习领域,设计并开发更有效的正则化方法已成为一个主要的研究方向。 Continue reading