何为因?何为果?图灵奖得主Bengio有一个解 | ICLR 2020

2020年04月07日 17:44 来源:AI科技评论 作者:蒋宝尚

作者| 蒋宝尚
编辑 | 贾伟
元学习又叫做学会学习,意思是拥有学习的能力,在深度学习文献中经常表示神经网络架构的自动化设计。
而Judea Pearl 开创的图因果推被认为是开发真正意义智能的机器必须跨过的一道坎。
而当因果关系遇上元学习会发生什么?
最近,被ICLR 2020收录, Yoshua Bengio为第一作者的论文《一个元转移的目标学习解开因果机制》揭开了这两者的关系。
 


论文链接:https://openreview.net/forum?id=ryxWIgBFPS
在论文中,Bengio提出使用一个元学习目标来学习如何将获得的知识模块化,并找到其中的因果关系。
一般机器学习模型训练都假设使用的数据是服从独立同分布,不仅如此,在测试所使用的数据也都是独立同分布的。虽然独立同分布的假设能够从统计学中得到很好的解释,但是在实际应用中却不是这样。
例如一辆正在行驶的汽车,很有可能被突发事件扰乱原有的行驶轨迹,所以静态的训练策略无法满足模型训练的要求。
如果要求模型能够考虑这些“意外”数据,就需要这些数据的额外信息。也就是当模型从一个分布转移到另一个分布是需要付出代价的。

1

 

总体思路

Bengio的这篇论文,认为用模块化的方式表示知识的时候,一些“意外”的变化是微小的,或者只有一个或者几个模块发生了变化。
但是当概率分布的变化是由于Agent引起的,那就不容忽视了,因为这些Agent的行动往往是在特定地点和特定时间干预稳定的分布。
考虑到一般情况:Agent很难影响多个底层的因果变量。所以因果图就能够展现“扰动、干扰”是如何其他变量的分布。
然而,因果图的获取往往假设底层数据生成过程是已知的,例如Peters等人在2017年海拔和温度的例子:在给予模型瑞士的训练数据之后,更容易从海拔高度预测温度,而不是从温度预测海拔。
另外,当模型从瑞士的数据“学会”了天气预测之后,把它用在荷兰也同样有效。所以,也有人认为,预测模型的分布外的稳健性可以用来指导真实因果结构的推断。
所以Bengio在论文中提出假设:如果数据生成过程是由独立的机制组成,那么从模型在转移分布(可以简单理解为应用场景)时候,真实的机制和参数就不需要过多的改变。
所以,在构建模型的时候,不仅要考虑数据分布的假设,还要考虑其变化方式(例如,从训练分布转到迁移分布时,可能是由于某些Agent的行为造成的)。
基于以上考虑,作者在论文中提出的核心思想是:基于正确知识表示空间的微小变化的假设,可以定义一个衡量适应速度的元学习目标,以便优化知识的表示,分解和结构化方式。

2

 

何为因?何为果?

这部分作者主要考虑确定变量A是否导致变量B,而不是B导致A。也就是弄明白何为因,何为果。
在不失一般性的前提下,将真实的因果图固定为A→B,这对模型来说是未知的。此外,为了使案例更有力,作者考虑了一种称为共变异数转移的设置,并设训练分布和转移分布之间的变化发生在对因果关系A的干预之后。
数学上描述就是:A变化,条件概率P(B|A)不发生变化。
作者是使用梯度上升来进行适应,那么每个模块的对数概率梯度在转移分布下的表现如何?
G是一个因果图,p是一个根据G进行因子化的(训练)分布,与参数θ相关。如果训练分布和转移分布对所有Vi都有相同的条件概率分布,但对一个子集C:
 

例如,转移分布是对C中的节点进行干预的结果


那么预期的梯度与参数θi有关,这样,Vi∈/C的对数概率的对数概率在转移分布将为零:


上面这两个公式是作者提出的第一个命题,用来表明:如果两个分布都根据正确的因果图进行因果化,那么只需要更新训练分布和转移分布之间变化的机制参数即可。这假设显然有效地减少了需要调整的参数的数量。
在上面的例子中,两个离散的随机变量(每个变量取N个值),作者假设底层的因果模型是A→B,而转移分布是干预原因A的结果。另一方面,如果模型根据反因果图B→A,那么概率p˜(B)和条件概率p˜(A|B)的参数必须进行调整。
假设样本复杂度和自由参数的数量之间存在线性关系,那么反因果图的样本复杂度为O(N2),而真正的底层因果图A→B的样本复杂度只有O(N)。
3

 

元转移目标

由于对某种转移分布的适应速度与知识的正确模块化密切相关,因此作者提出将其作为一种噪声信号,迭代地提高模型从数据中推断因果结构的能力。
 

转移分布的适应性(A-B,B-A的差别)
从上图可以看出,在少量的转移数据下,正确模型和错误模型之间的差距很大。为了比较一些模型对分布变化的适应速度,作者根据对转移分布中的几个例子进行梯度微调后的累计在线性能(accumulated online performance)来量化适应速度。
更准确地说,给定来自p˜的一个小“干预”数据集dint={xt},将在线似然(online likelihood)定义为:
 


从结构学习的角度来看,在线似然可以被解释为希望最大化的得分,这个得分的目的是找到因果图。
在线似然与贝叶斯得分(Bayesian score)有些联系,贝叶斯得分定义为:
 

p(D| G)是边际似然, 被定义为:
 


作者在论文中说明在线似然与贝叶斯得分联系的意思是:在线对数似然提供了一种简单的方法来近似贝叶斯分数,毕竟贝叶斯分数往往是比较难解决的。
因果结构的平滑参数化:帮助定义元学习目标
由于n个节点上可能的有向无环图(DAG)的超指数数量,所以因果结构的问题通常是NP-hard。
因此,作者提出可以通过跟踪每条有向边出现的概率来参数化因果图的信念( belief),这就提供了一个平滑的图的参数化,如此便能够定义一个完全可分化的元学习目标,所有的信念通过梯度下降法同时更新。
对应于具体的元示例,作者仍然给出了例子,其算法如下:



4

 

实验结果

作者在所有实验中假设A和B是两个相关的随机变量,底层因果模型固定为A→B。正确的因果关系模型为A→B,那么结构参数应该正确收敛。
作者首先对A和B都是离散随机变量的情况进行实验,其中A、B取值数量为N。作者探讨了条件概率分布(CPD)的两种不同参数化方式如何影响结构参数的收敛性。
在第一个实验中,作者将条件概率分布(CPDS)参数化为多项式逻辑条件概率分布,并保留了条件概率的表格化表示。例如,条件分布p(B|A)表示为
 


其中参数θ是一个N×N矩阵。作者还用类似的表示方法表示了其他的边际系数和条件分布p(A)、p(B)和p(A|B)。
在第二个实验中,作者使用了结构化的条件概率分布,并用多层感知机进行参数化,在输出层具有Softmax非线性。

(左)多项Logistic CPDS,(右)MLP参数化。


如上图所示,对于不同的N值,正如预期的那样,结构参数在数百次内正确地收敛到σ(γ)→1。这一观察结果在两个实验中都是一致的,与CPD的参数化无关。有趣的是,结构参数往往在较大的N值下收敛得更快。
另外,作者还实验了A和B是连续的随机变量的情况,发现它们要么服从多峰分布,要么是线性高斯分布。与图2类似,作者发现结构参数σ(γ)也一致收敛到正确的因果模型。
更多实验信息,请读者去论文中查看。

5

 

总结展望

作者使用非常简单的双变量设置,确定了模型可以用数据分布稀疏变化的速率来优化因果结构并解耦因果变量。基于这样的假设:在具有正确因果结构的情况下,这些分布变化是局部且稀疏的。本文通过理论结果和实验验证了这些想法。
这项工作只是基于修改分布速率优化因果结构的第一步。在实验方面,除了本文研究的设定外,还应考虑许多其他条件设定,包括各种参数设置,更丰富和更大的因果图,各种优化程序等。此外,由于作者在这一点上仅使用了具有单一自由度的最简单的编码器进行了实验,在探索如何学习更优的学习表达时,还需要更多的工作。

转载自公众号:AI科技评论 作者:蒋宝尚 本文经授权发布,不代表51LA立场,如若转载请联系原作者。

本文经授权发布,不代表51LA立场,如若转载请联系原作者。

何为因?何为果?图灵奖得主Bengio有一个解 | ICLR 2020

来源:AI科技评论 作者:蒋宝尚
2020年04月07日 17:44

作者| 蒋宝尚
编辑 | 贾伟
元学习又叫做学会学习,意思是拥有学习的能力,在深度学习文献中经常表示神经网络架构的自动化设计。
而Judea Pearl 开创的图因果推被认为是开发真正意义智能的机器必须跨过的一道坎。
而当因果关系遇上元学习会发生什么?
最近,被ICLR 2020收录, Yoshua Bengio为第一作者的论文《一个元转移的目标学习解开因果机制》揭开了这两者的关系。
 


论文链接:https://openreview.net/forum?id=ryxWIgBFPS
在论文中,Bengio提出使用一个元学习目标来学习如何将获得的知识模块化,并找到其中的因果关系。
一般机器学习模型训练都假设使用的数据是服从独立同分布,不仅如此,在测试所使用的数据也都是独立同分布的。虽然独立同分布的假设能够从统计学中得到很好的解释,但是在实际应用中却不是这样。
例如一辆正在行驶的汽车,很有可能被突发事件扰乱原有的行驶轨迹,所以静态的训练策略无法满足模型训练的要求。
如果要求模型能够考虑这些“意外”数据,就需要这些数据的额外信息。也就是当模型从一个分布转移到另一个分布是需要付出代价的。

1

 

总体思路

Bengio的这篇论文,认为用模块化的方式表示知识的时候,一些“意外”的变化是微小的,或者只有一个或者几个模块发生了变化。
但是当概率分布的变化是由于Agent引起的,那就不容忽视了,因为这些Agent的行动往往是在特定地点和特定时间干预稳定的分布。
考虑到一般情况:Agent很难影响多个底层的因果变量。所以因果图就能够展现“扰动、干扰”是如何其他变量的分布。
然而,因果图的获取往往假设底层数据生成过程是已知的,例如Peters等人在2017年海拔和温度的例子:在给予模型瑞士的训练数据之后,更容易从海拔高度预测温度,而不是从温度预测海拔。
另外,当模型从瑞士的数据“学会”了天气预测之后,把它用在荷兰也同样有效。所以,也有人认为,预测模型的分布外的稳健性可以用来指导真实因果结构的推断。
所以Bengio在论文中提出假设:如果数据生成过程是由独立的机制组成,那么从模型在转移分布(可以简单理解为应用场景)时候,真实的机制和参数就不需要过多的改变。
所以,在构建模型的时候,不仅要考虑数据分布的假设,还要考虑其变化方式(例如,从训练分布转到迁移分布时,可能是由于某些Agent的行为造成的)。
基于以上考虑,作者在论文中提出的核心思想是:基于正确知识表示空间的微小变化的假设,可以定义一个衡量适应速度的元学习目标,以便优化知识的表示,分解和结构化方式。

2

 

何为因?何为果?

这部分作者主要考虑确定变量A是否导致变量B,而不是B导致A。也就是弄明白何为因,何为果。
在不失一般性的前提下,将真实的因果图固定为A→B,这对模型来说是未知的。此外,为了使案例更有力,作者考虑了一种称为共变异数转移的设置,并设训练分布和转移分布之间的变化发生在对因果关系A的干预之后。
数学上描述就是:A变化,条件概率P(B|A)不发生变化。
作者是使用梯度上升来进行适应,那么每个模块的对数概率梯度在转移分布下的表现如何?
G是一个因果图,p是一个根据G进行因子化的(训练)分布,与参数θ相关。如果训练分布和转移分布对所有Vi都有相同的条件概率分布,但对一个子集C:
 

例如,转移分布是对C中的节点进行干预的结果


那么预期的梯度与参数θi有关,这样,Vi∈/C的对数概率的对数概率在转移分布将为零:


上面这两个公式是作者提出的第一个命题,用来表明:如果两个分布都根据正确的因果图进行因果化,那么只需要更新训练分布和转移分布之间变化的机制参数即可。这假设显然有效地减少了需要调整的参数的数量。
在上面的例子中,两个离散的随机变量(每个变量取N个值),作者假设底层的因果模型是A→B,而转移分布是干预原因A的结果。另一方面,如果模型根据反因果图B→A,那么概率p˜(B)和条件概率p˜(A|B)的参数必须进行调整。
假设样本复杂度和自由参数的数量之间存在线性关系,那么反因果图的样本复杂度为O(N2),而真正的底层因果图A→B的样本复杂度只有O(N)。
3

 

元转移目标

由于对某种转移分布的适应速度与知识的正确模块化密切相关,因此作者提出将其作为一种噪声信号,迭代地提高模型从数据中推断因果结构的能力。
 

转移分布的适应性(A-B,B-A的差别)
从上图可以看出,在少量的转移数据下,正确模型和错误模型之间的差距很大。为了比较一些模型对分布变化的适应速度,作者根据对转移分布中的几个例子进行梯度微调后的累计在线性能(accumulated online performance)来量化适应速度。
更准确地说,给定来自p˜的一个小“干预”数据集dint={xt},将在线似然(online likelihood)定义为:
 


从结构学习的角度来看,在线似然可以被解释为希望最大化的得分,这个得分的目的是找到因果图。
在线似然与贝叶斯得分(Bayesian score)有些联系,贝叶斯得分定义为:
 

p(D| G)是边际似然, 被定义为:
 


作者在论文中说明在线似然与贝叶斯得分联系的意思是:在线对数似然提供了一种简单的方法来近似贝叶斯分数,毕竟贝叶斯分数往往是比较难解决的。
因果结构的平滑参数化:帮助定义元学习目标
由于n个节点上可能的有向无环图(DAG)的超指数数量,所以因果结构的问题通常是NP-hard。
因此,作者提出可以通过跟踪每条有向边出现的概率来参数化因果图的信念( belief),这就提供了一个平滑的图的参数化,如此便能够定义一个完全可分化的元学习目标,所有的信念通过梯度下降法同时更新。
对应于具体的元示例,作者仍然给出了例子,其算法如下:



4

 

实验结果

作者在所有实验中假设A和B是两个相关的随机变量,底层因果模型固定为A→B。正确的因果关系模型为A→B,那么结构参数应该正确收敛。
作者首先对A和B都是离散随机变量的情况进行实验,其中A、B取值数量为N。作者探讨了条件概率分布(CPD)的两种不同参数化方式如何影响结构参数的收敛性。
在第一个实验中,作者将条件概率分布(CPDS)参数化为多项式逻辑条件概率分布,并保留了条件概率的表格化表示。例如,条件分布p(B|A)表示为
 


其中参数θ是一个N×N矩阵。作者还用类似的表示方法表示了其他的边际系数和条件分布p(A)、p(B)和p(A|B)。
在第二个实验中,作者使用了结构化的条件概率分布,并用多层感知机进行参数化,在输出层具有Softmax非线性。

(左)多项Logistic CPDS,(右)MLP参数化。


如上图所示,对于不同的N值,正如预期的那样,结构参数在数百次内正确地收敛到σ(γ)→1。这一观察结果在两个实验中都是一致的,与CPD的参数化无关。有趣的是,结构参数往往在较大的N值下收敛得更快。
另外,作者还实验了A和B是连续的随机变量的情况,发现它们要么服从多峰分布,要么是线性高斯分布。与图2类似,作者发现结构参数σ(γ)也一致收敛到正确的因果模型。
更多实验信息,请读者去论文中查看。

5

 

总结展望

作者使用非常简单的双变量设置,确定了模型可以用数据分布稀疏变化的速率来优化因果结构并解耦因果变量。基于这样的假设:在具有正确因果结构的情况下,这些分布变化是局部且稀疏的。本文通过理论结果和实验验证了这些想法。
这项工作只是基于修改分布速率优化因果结构的第一步。在实验方面,除了本文研究的设定外,还应考虑许多其他条件设定,包括各种参数设置,更丰富和更大的因果图,各种优化程序等。此外,由于作者在这一点上仅使用了具有单一自由度的最简单的编码器进行了实验,在探索如何学习更优的学习表达时,还需要更多的工作。

转载自公众号:AI科技评论 作者:蒋宝尚 本文经授权发布,不代表51LA立场,如若转载请联系原作者。

本文经授权发布,不代表51LA立场,如若转载请联系原作者。

51LA网站统计V6

51LA与500位站长联合打造全新一代网站统计工具