Domain adaptation under structural causal models
本文为 Domain Adaptation 领域从结构化因果模型 (SCM) 的角度建立了一套理论框架,为分析与对比现有的各类DA方法提供理论上的支持。
本文认为基于域不变投影的方法 (DIP, Domain invariant projection) 在预测问题为反因果且源域与目标域的标记空间一致的情况下能够得到更低的错误率。然而,当预测问题为因果或混合因果与反因果,或者源与目标的标记空间存在不一致的情况下,性能不佳。基于此分析,本文提出了一种新的 DA 方法 CIRM 与其变体能够相对 DIP 类方法在面对混合因果与反因果问题或标记空间不一致的情形下得到更好的性能。
Domain Adaptation 问题设定
DA问题中,给定一个带标记的多源域中包含\(M\)个源域和一个无标记的目标域。其中,第\(m\)个源域中包含\(n_m\)个独立同分布地从\(\mathcal{P}^{(m)}\)采样的样本集合\(S^{(m)}=\left(\left(x_{1}^{(m)}, y_{1}^{(m)}\right), \cdots,\left(x_{n_{m}}^{(m)}, y_{n_{m}}^{(m)}\right)\right)\)。目标域中有\(\tilde{n}\)个独立同分布从\(\tilde{\mathcal{P}}\)采样得到的样本集合\(\tilde{S}=\left(\left(\tilde{x}_{1}, \tilde{y}_{1}\right), \cdots,\left(\tilde{x}_{\tilde{n}}, \tilde{y}_{\tilde{n}}\right)\right)\),然而,算法仅能观测到协变量即从边缘分布\(\tilde{\mathcal{P}}_X\)中采样得到的\(\tilde{S}_{X}=\left(\tilde{x}_{1}, \cdots, \tilde{x}_{\tilde{n}}\right)\)。
DA算法需要估计一个函数\(f_{\beta}: \mathbb{R}^{d} \mapsto \mathbb{R}\)建立起从协变量到标记之间的映射,其中,函数参数\(\beta \in \Theta\)满足目标群体风险小。定义一个分类器\(f\)的目标群体风险为:
\[
\tilde{R}(f)=\mathbb{E}_{(X, Y) \sim \tilde{\mathcal{P}}}[l(f(X), Y)]
\]
其中,风险函数\(l\)默认为平方误差函数\(x\mapsto x^2\)。
易知,此风险的理论下界受参数空间\(\Theta\)的限制,为\(\tilde{R}(f_{\beta_{\text{oracle}}})\),其中,\(\beta_{\text {oracle }} \in \underset{\beta \in \Theta}{\arg \min } \mathbb{E}_{(X, Y) \sim \widetilde{\mathcal{P}}}\left[l\left(f_{\beta}(X), Y\right)\right]\)。
针对数据分布的变化,可以分类为以下几种:
- Covariate Shift: 即协变量\(X\)的边缘分布\(P(X)\)发生改变,而标记函数(也就是条件分布)\(P(Y|X)\)不变化。
- Target Shift (Label Shift): 标记\(Y\)的边缘分布\(P(Y)\)发生改变,而条件分布\(P(X|Y)\)不变化。
- Conditional Shift: 标记\(Y\)的边缘分布\(P(Y)\)不变,而条件分布\(P(X|Y)\)发生变化。
- Generalized Target Shift: 标记\(Y\)的边缘分布\(P(Y)\)发生变化,同时,条件分布\(P(X|Y)\)也发生满足某些条件的变化。值得注意的是,在这里如果\(P(X|Y)\)变化任意,那么这个问题将变得不可学习。
- Model Shift: 标记函数\(P(Y|X)\)发生变化,同时,边缘分布\(P(X)\)发生改变。
- Concept Shift: 标记函数\(P(Y|X)\)发生了变化。
以上变化在”Mapping conditional distributions for domain adaptation under generalized target shift”中进行了总结,Domain Adaptation中主要考虑标记函数不变的情况,也就是分布变化中的前四种情形,第五种情形也有人进行了研究,最后一种变化常在流数据问题中被研究。
建模数据生成的方式:噪声干预的结构因果模型
数据的生成方式
假定第\(m\)个源域来源于分布\(\mathcal{P}^{(m)}\)的数据\(\left ( X^{(m)}, Y^{(m)}\right )\),通过如下方式产生:
\[
\left[\begin{array}{l}
X^{(m)} \\
Y^{(m)}
\end{array}\right]=\left[\begin{array}{cc}
\mathbf{B} & b \\
\omega^{\top} & 0
\end{array}\right]\left[\begin{array}{l}
X^{(m)} \\
Y^{(m)}
\end{array}\right]+g\left(a^{(m)}, \varepsilon^{(m)}\right)
\]
而目标域来源于分布\(\tilde{\mathcal{P}}\)的数据,通过类似的方式生成:
\[
\left[\begin{array}{c}
\tilde{X} \\
\tilde{Y}
\end{array}\right]=\left[\begin{array}{ll}
\mathbf{B} & b \\
\omega^{\top} & 0
\end{array}\right]\left[\begin{array}{c}
\tilde{X} \\
\tilde{Y}
\end{array}\right]+g(\widetilde{a}, \tilde{\varepsilon})
\]
数据产生过程中的参数一方面刻画了环境的影响,另一方面刻画了数据内在的因果结构,将在以下的两个小章节介绍。?为什么使用方程的形式来刻画数据。
环境的影响
其中,\(\varepsilon^{(m)},\tilde{\varepsilon}\sim \mathcal{E}\)源于相同的噪声分布,\(a^{(m)}, \tilde{a}\)刻画环境的变化,噪声与环境变化共同决定了数据与标记的生成,函数\(g\)具体建模了这种源域与目标域之间的差异。
易知,在这种数据建模方式下,不同环境中数据的差异源于环境变化\(a^{(m)}, \tilde{a}\)对于数据产生过程的干预 (Intervention),而函数\(g\)则具体建模了环境的变化究竟对于数据会产生什么样的影响,本文的理论分析探讨了一种简单的影响方式(Mean shift noise intervention),即,函数\(g: \mathbb{R}^{d+1} \times \mathbb{R}^{d+1} \rightarrow \mathbb{R}^{d+1} \text { as }(a, \varepsilon) \mapsto a+\varepsilon\)。
另外还有一些复杂的建模方式,例如:Variance shift noise intervention(\(g:(a, \varepsilon) \mapsto a \odot \varepsilon\))……本文在后续的实验中对这些复杂的情形进行了探讨。
数据间的因果结构
所生成的数据\((X,Y)\)的因果关系则由未知且确定的参数\(\mathbf{B}\in \mathbb{R}^{d\times d}\)与\(b,\omega \in \mathbb{R}^d\)确定。其中,\(\mathbb{I}_d-\mathbf{B}\)不可逆,以保证数据生成的唯一性。根据\(\mathbf{B}, b, \omega\)的不同,协变量\(X\)与标记\(Y\)间的因果关系可以具体分析为:因果预测(\(X\)导致\(Y\),由因预测果)、反因果预测(\(Y\)导致\(X\),由果预测因)、\(Y\)被干预时的反因果预测(\(Y\)导致\(X\),由果预测因,同时标记\(Y\)同样受到来自环境的影响)。
参考与DA方法
参考方法
OLSTar
直接在目标域的标记数据上计算一个最优的线形模型,可以看作是DA问题的性能上限(错误率下限):
\[
\begin{aligned}
f_{\text {OLSTar }}(x) &:=x^{\top} \beta_{\text {OLSTar }}+\beta_{\text {OLSTar }, 0} \\
\beta_{\text {OLSTar }}, \beta_{\text {OLSTar }, 0} &:=\underset{\beta, \beta_{0}}{\arg \min } \mathbb{E}_{(X, Y) \sim \tilde{\mathcal{P}}}\left(Y-X^{\top} \beta-\beta_{0}\right)^{2} .
\end{aligned}
\]
Causal
利用线形SCM参数生成的因果线形模型,能够在对于协变量\(X\)扰动任意时到达最低的预测风险。然而,在DA问题中目标域的协变量\(X\)能够提供更多的信息,因此,因果模型不一定能够相比OLSTar达到一样的最低目标域风险。
\[
\begin{aligned}
f_{\text {Causal }}(x) &:=x^{\top} \beta_{\text {Causal }} \\
\beta_{\text {Causal }} &:=\omega
\end{aligned}
\]
Source-Only Baseline
OLSSrc:在第\(m\)个源域上计算得到的线形分类器:
\[
\begin{aligned}
f_{\text {OLSSrc }}^{(m)}(x) &:=x^{\top} \beta_{\text {OLSSrc }}^{(m)}+\beta_{\mathrm{OLSSrc}, 0}^{(m)} \\
\beta_{\mathrm{OLSSrc}}^{(m)}, \beta_{\mathrm{OLSSrc}, 0}^{(m)} &:=\underset{\beta, \beta_{0}}{\arg \min } \mathbb{E}_{(X, Y) \sim \mathcal{P}^{(m)}}\left(Y-X^{\top} \beta-\beta_{0}\right)^{2}
\end{aligned}
\]
SrcPool: 在所有的源域上计算得到的线性分类器:
\[
\begin{aligned}
f_{\text {SrcPool }}(x) &:=x^{\top} \beta_{\text {SrcPool }}+\beta_{\text {SrcPool }, 0} \\
\beta_{\text {SrcPool }}, \beta_{\text {SrcPool }, 0} &:=\underset{\beta, \beta_{0}}{\arg \min } \mathbb{E}_{(X, Y) \sim \mathcal{P}_{\text {allsrc }}}\left(Y-X^{\top} \beta-\beta_{0}\right)^{2},
\end{aligned}
\]
Domain Adaptation 方法
Domain Invariant Projection (DIP)
DIP 旨在学习源域与目标域的一个共享子空间,在此空间内优化源域上分类损失。DIP类方法通常通过引入正则化项来拉近源域与目标域之间的距离。本文分析了一种更简单的形式,即,将正则化项的系数设置为\(\infty\)、仅使用一个源域、特征提取器为线性模型、分类器为恒等映射、使用均方误差衡量分布之间的差异:
\[
\begin{aligned}
f_{\mathrm{DIP}}^{(m)}(x) &:=x^{\top} \beta_{\mathrm{DIP}}^{(m)}+\beta_{\mathrm{DIP}, 0}^{(m)} \\
\beta_{\mathrm{DIP}}^{(m)}, \beta_{\mathrm{DIP}, 0}^{(m)} &:=\underset{\beta, \beta_{0}}{\arg \min } \mathbb{E}_{(X, Y) \sim \mathcal{P}^{(m)}}\left(Y-X^{\top} \beta-\beta_{0}\right)^{2} \\
& \text { s.t. } \mathbb{E}_{X \sim \mathcal{P}_{X}^{(m)}}\left[X^{\top} \beta\right]=\mathbb{E}_{X \sim \tilde{\mathcal{P}}_{X}}\left[X^{\top} \beta\right] .
\end{aligned}
\]
Conditional Invariant Penalty (CIP)
相比DIP对齐源域与目标域的数据,CIP直接利用多个源域中的标记信息\(Y\),寻找协变量\(X\)中条件不变的成分。与DIP类似,本文分析了一种简单的形式:
\[
\begin{gathered}
f_{\mathrm{CIP}}(x):=x^{\top} \beta_{\mathrm{CIP}}+\beta_{\mathrm{CIP}, 0} \\
\beta_{\mathrm{CIP}}, \beta_{\mathrm{CIP}, 0}:=\underset{\beta, \beta_{0}}{\arg \min } \frac{1}{M} \sum_{m=1}^{M} \mathbb{E}_{(X, Y) \sim \mathcal{P}^{(m)}}\left(Y-X^{\top} \beta-\beta_{0}\right)^{2} \\
\text { s.t. } \mathbb{E}_{(X, Y) \sim \mathcal{P}^{(m)}}\left[X^{\top} \beta \mid Y\right]=\mathbb{E}_{(X, Y) \sim \mathcal{P}^{(1)}}\left[X^{\top} \beta \mid Y\right] \text { a.s., } \forall m \in\{2, \cdots, M\},
\end{gathered}
\]
启发和结论
因果预测任务(Covariate Shift)中,目标域无标记数据没有用
在因果预测问题中,数据\(X\)决定标记\(Y\),且环境对数据\(X\)产生影响,即,源域与目标域中\(P(X)\)变化而\(P(Y|X)\)保持不变,对应分布变化中的 Covariate Shift。
在这种情况下,\(P(X)\)上的变化与\(P(Y|X)\)是无关的,模型应当在源域上挖掘\(P(Y|X)\),目标域中提供的额外\(P(X)\)信息对于最终分类任务是没有增益的。因此,基线方案OLSSrc就能够获得性能上限OLSTar相同的错误率。
在这种情况下,DIP方法对于目标域上的性能相比基线方法OLSSrc反而有损害,因为它利用了本应无用的目标域中\(P(X)\)信息,强制对齐源域与目标域间的特征表示。
结果见表格的第一大行,DIP方法在目标域上性能很差,然而OLSTar, Causal, OLSSrc都有较好的性能。
反因果预测任务(Conditional Shift)中,DIP方法最有效但不能盲目对齐源域与目标域特征空间
在反因果预测中,标记\(Y\)决定协变量\(X\),且环境对协变量\(X\)产生影响,即,源域与目标域中\(P(X)\)变化而\(P(X|Y)\), \(P(Y)\)保持不变,对应分布变化中的 Conditional Shift。
在这种情况下,\(P(Y)\)与\(P(X|Y)\)保持不变,即,联合分布\(P(X, Y)\)不变化。在此条件下,协变量的边缘分布\(P(X)\)变化,将导致条件分布\(P(Y|X)\)变化。因此,\(P(Y|X)\)的变化与\(P(X)\)是相关的。
反因果预测任务(Conditional Shift)中,DIP方法的效果最好。因为DIP方法尝试对齐源域与目标域的\(P(X)\),并在对齐的子空间中计算\(P(Y|X)\),所得模型能够在源域与目标域上都有较好的泛化性能。结果见表格的第二大行,DIP方法性能很好,接近上限算法 OLSTar 的性能。
本文做了另一个小实验,在对齐源域与目标域数据分布的时候,进行了简单的调整(方法无法获取\(X\)只能获得\(|X|\)),性能反而变差,这说明盲目对齐不变表征是有害的。结果见表格中第二大行的DIP与DIPAbs比较。
标记分布的扰动将影响 DIP 方法性能
这里考虑了一种新的任务,即,标记Y受环境影响时的反因果预测任务。在这个任务中,源域与目标域中\(P(X)\)与\(P(Y)\)都发生变化,同时,存在变换\(\mathcal{T}\)使得\(P(\mathcal{T}(X)|Y)\)保持不变。这种分布变化对应了Generalized Target Shift,且满足限制就是有\(P(\mathcal{T}(X)|Y)\)保持不变。
在这个问题中,由于\(P(Y|X)\)的变化同时与\(P(X)\)与\(P(Y)\)相关,因此,DIP方法仅考虑对齐边缘分布\(P(X)\)后,计算得到的\(P(Y|X)\)仍然受到目标域中未知的\(P(Y)\)的影响,在目标域上无法得到较好的性能。结果见表格的第三大行,事实上在这种情况下,基线方法和DIP都无法取得较好的性能。
额外的假设能保证DIP方法性能优于基线方案
DIP方法失败的情形
DIP方法的主要思想为:消除\(P(X)\)的变化后对\(P(Y|X)\)进行建模,因此,其失败有三个原因:
- \(P(Y|X)\)与\(P(X)\)无关,对齐\(P(X)\)多此一举。
- DIP方法无法正确建模&消除\(P(X)\)变化,例如:\(P(X)\)变化在Variance上,而算法对齐的是Mean。
- \(P(Y|X)\)不仅与\(P(X)\)相关还受其他因素影响,例如:\(P(Y)\)也对标记函数造成影响且\(Y\)同样受到环境干预。
DIP方法的风险保证
DIP算法性能保证的假设(详见文章中的Assumption 1):
- 数据生成过程符合 Linear SCM
- 预测任务是反因果的(\(\omega=0\))
- \(P(Y)\)不受环境变化影响,即,\(P(Y|X)\)仅由\(P(X)\)影响
- DIP对齐\(P(X)\)的方式正确,例如:\(P(X)\)变化在Mean上,而算法也对齐Mean。
基于此假设,可以推知在此情形下性能上限算法OLSTar、性能下线算法OLSSrc和DIP算法的误差满足以下关系:
性能上限算法OLSTar的错误率和标记\(Y\)的范围\(\sigma^2\)相关,与标记\(Y\)对于协变量\(X\)的影响强度大\(\sigma^2 b^{\top} \Sigma^{-1} b\)负相关。其中,\(\Sigma^{-1}\)可以看作是将协变量\(X\)内部的相关性解耦,从而计算出\(Y\)对于\(X\)的真实影响。
仅使用源域数据的OLSSrc的错误率在OLSTar的基础上,增加了与环境对于协变量\(X\)影响\(a^{(1)}_{X}-\tilde{a}_X\)相关的损失项。
DIP方法的分母与OLSTar不一样,区别在于\(\Sigma^{-1}\)变成了\(\Sigma^{-\frac{1}{2}} G_{DIP}^{(1)} \Sigma^{-\frac{1}{2}}\),这里的\(G_{DIP}^{(1)}\)可以理解为经过域不变投影后,协变量\(X\)的剩余部分。当源域与目标域相同时\(G_{DIP}^{(1)}\)变为单位阵,此时DIP与OLSTar错误率相当。
在此基础上,本文假设协变量\(X\)个维度间独立时,即,\(\Sigma=\frac{\sigma^{2}}{\rho} \mathbb{I}_{d} \text { with } \rho>0\)。同时,源域与目标域环境对于协变量\(X\)的差异从随机告诉分布中采样得到\(\mathcal{N}\left(0, \tau \mathbb{I}_{d}^{2}\right)\),就有:
CIP方法能处理\(Y\)变化
CIP算法能够保证性能的假设(Assumption 2):
- 数据的生成复合线性SCM模型
- 预测任务为反因果(\(\omega=0\))
- 协变量\(X\)在各个环境下存在条件不变的成分,即,环境对于样本的扰动并不会生成整个特征空间,\(\operatorname{dim}\left(\operatorname{span}\left(a_{X}^{(2)}-a_{X}^{(1)}, \ldots, a_{X}^{(M)}-a_{X}^{(1)}\right)\right)=p \leq d-1\))且目标域对于协变量\(X\)的干预也属于这个生成空间,即,\(\tilde{a}_{X}-a_{X}^{(1)} \in \operatorname{span}\left(a_{X}^{(2)}-a_{X}^{(1)}, \ldots, a_{X}^{(M)}-a_{X}^{(1)}\right)\)
- 算法对齐数据分布的方式正确
基于此假设,可以推知OLSTar、CIP、CIRM算法在在目标域上的错误率:
类似的,可以了解CIP算法的错误率与标记\(Y\)的范围\(\sigma^2\)与\((\tilde{a}_{Y}-\overline{a}_{Y})^2\)相关;和经过条件不变投影后\(Y\)对于\(X\)的剩余部分的影响负相关。
CIRM算法
CIRM算法是DIP算法和CIP算法的结合:首先利用CIP算法计算协变量\(X\)中条件不变的成分,然后利用\(\tilde{X}^{\top}\beta_{CIP}\)作为目标域上未知的\(\tilde{Y}\)的近似。在然后协变量\(X\)中去除近似的\(\tilde{Y}\)后,协变量的残差\(X-\tilde{X}^{\top}\beta_{CIP}\)将不受环境对于\(\tilde{Y}\)的干预。因此,利用不变成分和残差在源域与目标域上的对齐\(Y\)进行预测。
相比于CIP算法,CIRM算法不仅利用了协变量\(X\)中条件不变的部分,还尝试将目标域与源域中\(X\)的残差对齐以预测\(Y\),从而获得了更好的性能。

原文链接:Domain adaptation under structural causal models
WNJXYKの博客 版权所有,转载请注明出处。
评论功能已经关闭!