博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 因果推斷入門(mén):為什么需要因果推斷?(2)

因果推斷入門(mén):為什么需要因果推斷?(2)

發(fā)布人:數(shù)據(jù)派THU 時(shí)間:2022-09-18 來(lái)源:工程師 發(fā)布文章
2.3.2 Ignorability & Exchangeability


這時(shí)候,我們就可以問(wèn)出本章中最重要的問(wèn)題“什么樣的假設(shè)可以使 ATE=associational di?erence”?等同于“什么假設(shè)讓我們能夠通過(guò)取  列的平均值(忽略問(wèn)號(hào))減去從  列的平均值(忽略問(wèn)好)來(lái)計(jì)算 ATE?”
這個(gè)問(wèn)題的答案就是假設(shè) ,即 potential outcome  和 treatment 獨(dú)立。這個(gè)假設(shè)使我們能夠?qū)?ATE 簡(jiǎn)化為 associational di?erence,即有了下面這個(gè)推導(dǎo):


圖片


第一個(gè)=成立由  得到,第二個(gè)=成立因?yàn)樵?nbsp; 條件下,potentionl outcome  和 observe outcome 是相等的,可以跳到公式 2.13 得到解釋。
圖片
可以從兩個(gè)方面來(lái)理解假設(shè) 2.1 中的獨(dú)立性:Ignorability 和 Exchangeability。
Ignorability:
這種對(duì)缺失數(shù)據(jù)的忽略被稱為可忽略性 Ignorability。換句話說(shuō),Ignorability 就像忽略人們最終是如何選擇他們所選擇的 treatment,而只是假設(shè)他們是被隨機(jī)分配 treatment 的,即也就是去掉了 confounder 的影響,即 ;展現(xiàn)在因果圖中就是刪掉  的邊。
圖片

▲ Fig 2.1


圖片▲ Fig 2.2
Exchangeability:
關(guān)于這個(gè)假設(shè)的另一個(gè)角度是可交換性 Exchangeability。可交換性是指實(shí)驗(yàn)組(treatment group)里的個(gè)體是可交換的,即如果它們被調(diào)換,新的實(shí)驗(yàn)組將觀察到與舊的實(shí)驗(yàn)組相同的結(jié)果,而新的控制組將觀察到與舊的控制組相同的結(jié)果。形式化的,可交換性意味著:
圖片
繼而可以推出:
圖片
這和  也是等價(jià)的。關(guān)于可交換性的一個(gè)重要直覺(jué)是,它保證了實(shí)驗(yàn)組的 comparable。換句話說(shuō),實(shí)驗(yàn)組在 treatment 以外的所有方面都是相同的。這種直覺(jué)是 "控制 "或 "調(diào)整 "變量的概念的基礎(chǔ),我們很快會(huì)在討論條件交換性時(shí)討論這個(gè)問(wèn)題。
用可視化的例子來(lái)理解 Exchangeability:
圖片
T=1 的所有個(gè)體稱為 Group A,T=0 的所有個(gè)體稱為 Group B,把 GroupA 和 GroupB 中的個(gè)體全部交換后,Observe outcome  保持不變。
圖片
那么交換前后的  也保持不變,然后就可以推出獨(dú)立性。
圖片
再來(lái)介紹一個(gè)概念:identifiability
圖片
如果可以把一個(gè)因果效應(yīng)的表達(dá)式減少到一個(gè)純粹的統(tǒng)計(jì)表達(dá)式,只使用統(tǒng)計(jì)符號(hào),如 T、X、Y,期望,和條件來(lái)表示,則意味著因果量  是可識(shí)別的。
我們已經(jīng)看到,假設(shè) 2.1 具有非常好的性質(zhì)。但是,一般來(lái)說(shuō),它是完全不現(xiàn)實(shí)的,因?yàn)樵谖覀冇^察到的大多數(shù)數(shù)據(jù)中都可能存在混雜因素(圖2.1)。然而,我們可以通過(guò)進(jìn)行隨機(jī)實(shí)驗(yàn) RCT 實(shí)現(xiàn)這一假設(shè),隨機(jī)實(shí)驗(yàn)迫使 treatment 不是由任何其他因素引起的,而是由拋硬幣決定的,所以我們就有了圖 2.2 所示的因果結(jié)構(gòu)。我們?cè)诘谖逭轮懈钊氲赜懻撾S機(jī)實(shí)驗(yàn)。
圖片
本小節(jié)從兩個(gè)角度介紹了假設(shè) 2.1:可忽略性和可交換性。從數(shù)學(xué)上講,這兩個(gè)假設(shè)的意思是一樣的,但它們的名字對(duì)應(yīng)于對(duì)同一假設(shè)的不同思考方式??山粨Q性和可忽略性只是這個(gè)假設(shè)的兩個(gè)名稱。之后,我們將介紹這個(gè)假設(shè)的更實(shí)際的、有條件的版本。

2.3.3 Conditional Exchangeability & Unconfoundedness


圖片
用上面的例子解釋假設(shè) 2.2 就是:“在所有喝醉酒的人里,其穿不穿鞋睡覺(jué)不是由其主觀意識(shí)決定的,而與意識(shí)無(wú)關(guān),是由一個(gè)隱藏的上帝之手決定的”。同樣的對(duì)于 2.2,也有兩種不同的解釋。
Conditional exchangeability:
在觀察性數(shù)據(jù)中,假設(shè)實(shí)驗(yàn)組是可以 exchangeability 是不現(xiàn)實(shí)的。換句話說(shuō),沒(méi)有理由期望各組在 treatment 之外的所有相關(guān)變量上都是一樣的。然而,如果我們通過(guò)條件化來(lái)控制相關(guān)變量,那么實(shí)驗(yàn)組或許是可交換的。這種情況下,盡管 treatment 和 potential outcome 可能是 unconditionally associated(由于 confounder 存在,紅色虛線),但在 X 固定住的條件下,它們是沒(méi)有關(guān)聯(lián)的(想象下紅線被截?cái)啵?/span>
圖片
如 Fig 2.3 所示,X 是 T 和 Y 的 confunder,因此,T 和 Y 之間有一條沿著  的 non-causal association(紅色虛線所示)。但是,當(dāng)我們 contioning on X,即固定住 X 的值,T 和 Y 之間的 non-causal association 就會(huì)被 block 掉,變成:


圖片
我們可以推出在 X 固定的條件下的 causal effect,即 conditional average treatment effect:
圖片
第一行是期望公式,第二行是由假設(shè) 2.2 得到的,第三行是由觀察的數(shù)據(jù)得到的。
這時(shí)候再對(duì) X 求期望,就可以得到完整的 average treatment effect,這個(gè)又叫做 Adjustment Formula(調(diào)整公式):
圖片
Conditional exchangeability(假設(shè) 2.2)是因果推理的核心假設(shè),它有很多名稱。例如,unconfoundedness 無(wú)混雜性、conditional ignorability 條件可忽略性、no unobserved confounding 無(wú)未觀察到的混雜、selection on observables 對(duì)可觀察的選擇、no omitted variable bias 無(wú)遺漏變量偏差等。我們將在本系列教程中大量使用 “unconfoundedness 無(wú)混雜性”這個(gè)名稱。
但是,實(shí)際情況是 我們通常無(wú)法確定有條件的可交換性是否成立??赡苡幸恍┪从^察到的混雜因子不是 X 的一部分,這意味著違反了條件可交換性,如下圖所示,由于存在另外一個(gè)混雜因子 W,獨(dú)立性并不存在。
圖片
幸運(yùn)的是,隨機(jī)試驗(yàn)可以解決這個(gè)問(wèn)題(第 5 章)。不幸的是,在觀測(cè)數(shù)據(jù)中,這種情況很有可能存在。我們能做的最好的事情就是觀察并擬合盡可能多的協(xié)變量(X 和 W)——盡可能確保 unconfoundedness。

2.3.4 Positivity/Overlap and Extrapolation


雖然想象中對(duì)許多協(xié)變量進(jìn)行 condition 可以實(shí)現(xiàn) unconfoundedness,但它實(shí)際上可能是有副作用的。這與另一個(gè)我們尚未討論的假設(shè)有關(guān):Positivity 積極性。Positivity 是指具有不同協(xié)變量值 X=x 的任何 group 都有一定的概率接受任何 value 的 treatment。即。為了好理解把原文也貼出來(lái),建議大家停下來(lái)仔細(xì)回味一下 Positivity 的意思。


Positivity is the condition that all subgroups of the data with di?erent covariates have some probability of receiving any value of treatment. Formally, we de?ne positivity for binary treatment as follows

圖片
下面解釋 positivity 為啥重要,首先回顧下調(diào)整公式:
圖片
如果違反了 positivity,那么就有  或者 ,由聯(lián)合概率公式得到  或 ,這正對(duì)應(yīng)著調(diào)整公式中的兩個(gè)事件。
把 Eq.(1) 中的期望改成求和,Eq(1) 就可以寫(xiě)成:
圖片
應(yīng)用 Bayes rule, 可以得到:
圖片
在 Eq.(2) 中,如果分母中的 ,那么算不出 causal effect 了。
直觀的解釋是如果 ,那么意味著 X=x 這一組 group 里面,每個(gè)人都接受了 treatment(每個(gè)喝醉酒的人都穿鞋睡覺(jué)),這樣就沒(méi)法計(jì)算 causal effect。
The Positivity-Unconfoundedness Tradeo?:
盡管 condition on 更多的協(xié)變量可能會(huì)有更高的機(jī)率滿足 unconfoundedness,但同樣會(huì)有更大的機(jī)率違反 Positivity。隨著我們?cè)黾訁f(xié)變量的數(shù)量,每個(gè) subgroup 越來(lái)越小,整個(gè) subgroup 得到同樣 treatment 的可能性越來(lái)越高。例如,一旦任 subgroup 的大小減少到 1,肯定不會(huì)滿足 Positivity。 

2.3.5 No interference, Consistency, and SUTVA


這一小節(jié)再介紹幾個(gè)其他的概念:
No interference:
圖片
No interference 指的是每個(gè)個(gè)體的 potential outcome 只和當(dāng)前這個(gè)個(gè)體所接受的 treatment 有關(guān),和其他個(gè)體的 treatment 無(wú)關(guān)。
Consistency:
圖片
Consistency 一致性指的是,如果觀察到的 treatment T=t,觀察的結(jié)果Y 實(shí)際上是 T=t 的 potential outcome--Y(t)。這樣就能解釋為什么 ,這可能解決了前面部分一些讀者留下的疑問(wèn),即為什么
圖片

2.3.6 Tying It All Together


搞明白上述假設(shè)后,我們?cè)賮?lái)回顧下調(diào)整公式,這一次在每個(gè)等式后把需要的假設(shè)列了出來(lái):
圖片
這就是怎么把所有這些假設(shè)結(jié)合在一起,來(lái)保證平均因果效應(yīng) ATE 的可識(shí)別性。通過(guò)上面的公式,很容易就可以算 ATE 的實(shí)際估值。



*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

比較器相關(guān)文章:比較器工作原理




關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉