国产女人大黑β片在线观看_国产成人亚洲精品无码Av大片l_亚洲成人无码手机播放_强奸暴虐视频在线观看

您當前位置: 唯學(xué)網(wǎng) » 用戶增長師 » 用戶增長師教育新聞 »

因果學(xué)習在用戶增長中的實踐

因果學(xué)習在用戶增長中的實踐

唯學(xué)網(wǎng) • 教育培訓(xùn)

2022-3-28 13:09

唯學(xué)網(wǎng) • 中國教育電子商務(wù)平臺

加入收藏

因果學(xué)習在用戶增長中的實踐

導(dǎo)讀:將因果推理與機器學(xué)習相結(jié)合,可以幫助我們解決在大量數(shù)據(jù)集當中檢測到細微相關(guān)性,并判斷其預(yù)測準確性的問題。我們將探索因果機器學(xué)習在用戶增長中是如何應(yīng)用的,采用了什么分析方法。

本文將圍繞下面四點展開:

基礎(chǔ)概念介紹

因果分析

因果機器學(xué)習

因果歸因

01

基礎(chǔ)概念介紹

1. 用戶增長指標

在用戶增長模型中,最顯著的一個指標便是DAU(日活躍用戶)的增長,在用戶生命周期中主要體現(xiàn)在留存和活躍兩個環(huán)節(jié)。另一方面是市場營銷的增長,體現(xiàn)在用戶付費、用戶裂變等。

留存、活躍,在推薦系統(tǒng)中是比較簡單的問題,因為它有明確的目標,即提升留存和活躍對應(yīng)的指標。同時它又是復(fù)雜的,因為對于不同用戶的標簽具有延遲性,但在數(shù)學(xué)上是可解的。除此之外,它需要一定深度,需要通過層層剖析去間接優(yōu)化其模型。

2. 因果分析應(yīng)用方法

為解決上訴問題,可以從因果的角度出發(fā),利用PSM(傾向評分匹配)統(tǒng)計方法進行因果分析,解決WHY的問題。

在其基礎(chǔ)上,使用因果機器學(xué)習或者因果歸因的技術(shù)手段去尋找提升指標的關(guān)鍵信息,例如Uplift / Meta-learner、Causal Recommendation和Credit Assignment模型,解決HOW的問題。

02

因果分析

1. 相關(guān)性和因果性

在做因果分析之前,我們需要明確兩個事件是存在相關(guān)性還是因果性,我們?nèi)绾闻袛嘁约叭绾魏饬磕?

第一個問題:一個回頭率高的用戶看了短視頻,我們是否可以認為這些短視頻促進了用戶的留存?顯然不是,這兩者有性質(zhì)上的偏差。

第二個問題:我們?nèi)绾瘟炕脩糁笜耍缬脩酎c擊、點贊、關(guān)注之類的指標,如何判斷與留存指標之間是相關(guān)性的還是因果性的?

因此我們需要通過構(gòu)造和去偏的思維方式去分析兩個事件之間的關(guān)系,采用例如PSM的方法,以推進后續(xù)的因果分析。

下面我們就以考慮用戶點擊對留存的影響為例,介紹如何用因果分析和因果機器學(xué)習,解決用戶增長的業(yè)務(wù)問題。

2. PSM傾向評分匹配統(tǒng)計方法

首先,利用PSM可以幫助我們研究用戶點擊和點贊行為對于用戶的留存是否存在因果性。其檢驗方法如下:

第一步:通過傾向分數(shù)(propensity score),計算其實驗?zāi)P停?LR/XGBT 處理模型(LR/XGBT Treatment Model)。

第二步:將兩個對比實驗組,通過算法的匹配,實現(xiàn)去偏。

第三步:采用KS-檢驗,計算P-value,核查協(xié)變量的平衡。

第四步:計算ATE(Average Treatment Effect),檢驗指標對最后結(jié)果的影響。

經(jīng)過PSM之后,我們假設(shè)得到結(jié)論:點擊會讓留存率提升5%,意味著一個用戶進行點擊行為后,其留存可以提升5%,反映到相應(yīng)的指標便是click_dau(點擊日活躍人數(shù))。例如click_dau提升了1%,那么整體留存率應(yīng)該提升5%×1%=0.05%。

當treatment是連續(xù)的,例如點擊不再是0→1的二元問題,而是從1變成更多的時候,我們會采取以下思路去解決問題:

得到回歸模型后,去預(yù)測用戶的點擊數(shù),但是這個方法比較復(fù)雜。

通過因果分析或其他一些match的方法解決。

在因果分析中,主要采用兩種方法:

第一種: PSM ,可以等價為帶有權(quán)重的聚類。

第二種: Matching on Features ,特征匹配,也是一種聚類,但是這個方法需要結(jié)合業(yè)務(wù)去挖掘有價值的特征和切合業(yè)務(wù)的指標進行匹配。

03

因果機器學(xué)習

接下來介紹因果推薦的因果機器學(xué)習模型的一些應(yīng)用。

1. 機器學(xué)習中的因果推理VS因果推理中的機器學(xué)習

機器學(xué)習中的因果推理和因果推理中的機器學(xué)習兩個概念其實是不一樣的,兩者主要區(qū)別在于:

前者旨在把因果分析當做工具放到機器學(xué)習中去,后者旨在把機器學(xué)習當工具放到因果分析中去;

前者包含去偏算法和HTE非均勻處理效果模型,后者包含因果分析以及HTE非均勻處理效果模型。

2. 用戶留存中的HTE分析

對于留存而言,HTE以是否采取策略和是否留存為維度劃分為四個區(qū)域,其中采用的策略針對不同的業(yè)務(wù)問題,可以采用單一處理的黑盒策略,也可以采用無限處理的推薦策略。因此HTE是一個四象限問題,分別為:

第一象限為+1 ,采用策略的用戶留存下來;

第二、三象限為0 ,自然用戶,即不采用策略用戶是否留存,其結(jié)果都為0;

第四象限為-1 ,采用策略的用戶沒有留存下來。

在自然模型中,采用打標簽的方法,類似于現(xiàn)實生活中的AB test,但是可以對每個實驗組設(shè)置一樣的條件,就像“平行世界”一樣,僅有是否treat和是否留存的標簽,便可以直觀的得到treatment對留存的影響。

在PML模型里,采用例如uplift模型,構(gòu)造p_score相等的兩個目標形成一組Pair,去尋找事實相反的配對,構(gòu)建深度學(xué)習模型,簡化深度學(xué)習網(wǎng)絡(luò),剔除一些無效樣本,已形成有效的網(wǎng)絡(luò)結(jié)構(gòu)。

在這個基礎(chǔ)上,我們有一些衍生的知識點:

Propensity dropout,即利用PSM去精簡和修正機器學(xué)習網(wǎng)絡(luò)。

將深度學(xué)習網(wǎng)絡(luò)或神經(jīng)網(wǎng)絡(luò)中的一些網(wǎng)絡(luò)節(jié)點去掉,不會影響最后的結(jié)果,甚至能提升其結(jié)果。

剔除無效網(wǎng)絡(luò)的目的,是要保留有意義的部分,即使得lift的結(jié)果是正的或者是負的。

3. 用戶活躍中的HTE分析

針對用戶活躍,PML可以延伸為二元處理和連續(xù)處理的問題,然后基于可觀測數(shù)據(jù)對HTE模型進行訓(xùn)練,使得模型更加穩(wěn)健。

我們以0.5作為分水嶺。指標active_days_sum為0-0.5的用戶其活躍會減少0.1%,為0.5-1的用戶其活躍會增加0.4%;指標duration_sum為0-0.5的用戶其活躍會減少0.4%,為0.5-1的用戶其活躍會增加0.5%。

得到這個結(jié)論,意味著當針對活躍天數(shù)的策略生效之后,dau的提升應(yīng)該是0.2×0.4%=0.08%。

4. 數(shù)學(xué)模型:游戲幣回收

我們采用一個游戲幣回收的數(shù)學(xué)模型來詳細闡述采用Meta-learner和HTE模型來實現(xiàn)采取不同回收策略,以實現(xiàn)回收更多游戲幣的方法。我們主要有兩組回收策略:

A組:一次回收100個游戲幣,總共設(shè)置N組。有m個玩家回收成功,總共回收C1=100×m個游戲幣。

B組:一次回收60個游戲幣,總共設(shè)置N組。有n個玩家回收成功,總共回收C2=60×n個游戲幣。

可以采用的模型有Meta-learner、HTE和Online-learning,我們主要闡述前兩種?梢詮膬蓚角度去評估我們的模型,一個是通過實驗數(shù)據(jù)去評估收益的數(shù)據(jù);一個是通過理論推導(dǎo),精確地評估收益和漲幅。

第一個方法是 Meta-learner,是T-learner模型的一個拓展,通過訓(xùn)練兩個模型,并畫出購買用戶的累計分布曲線,找到兩個策略最大的gap,在圖中即為h。我們可以通過累計分布曲線去優(yōu)化,得到第三個策略,是前兩個策略的線性疊加。

第二個方法是 HTE匹配模型,它實際上是通過以兩個策略為基礎(chǔ),貼上不同的標簽,構(gòu)造三組模型去構(gòu)建模型,進行計算,主要分為以下三組:

第一組:Group 100,label=0 VS Group 60,label=0

第二組:Group 100,label=0 VS Group 60,label=1

第三組:Group 100,label=1 VS Group 60,label=1

這個模型的缺點在于計算過程中會有累積的誤差,效果不是很穩(wěn)定。但是利用這種方法,可以最大程度的簡化目標,將最優(yōu)化問題變成簡單的三分類問題,得到更加簡化的模型和明確的策略。

04

因果歸因理論

在做策略的時候,例如推薦,我們主要會遇到以下兩個問題:

多組(無限)處理 ,我們無法訓(xùn)練太多的模型,如何簡化我們的推薦treatment。

效果延遲問題 ,例如做留存策略時,關(guān)注用戶點擊ctr等即時反饋之外,如何制定更長遠的指標策略。

在這里我們再用這個框架圖來講解一下因果歸因的思路,它用到了用戶三個狀態(tài)T-1,T0和T+1。T0狀態(tài)即為用戶受到無限處理的影響的狀態(tài)。從T-1到T+1,是利用T-1狀態(tài)的一些特征去預(yù)測T+1狀態(tài)的留存情況,類似PSM傾向性得分。另一條路從T-1到T0再到T+1,是在經(jīng)過treatment后,進行回溯。從T+1到T0,計算retain lift,這個lift可以認為是treatment帶來的,然后采用backward或者credit assignment的方式歸因到treatment上。

在因果分析里最主要的是解決去偏問題,在這個過程中我們解決了幾個bias,在T0增加treatment時,高留存的用戶未來留存也會高,因此會把用戶留存的bias去掉,留下lift的留存。同時形成treatment時,也會只考慮當天用戶的treatment帶來的lift。但是在這個過程中treatment的數(shù)量很多,難以算出每個treatment對應(yīng)的lift,可以采用平均處理計算。但是這個方法存在很大的誤差,進一步可以采用權(quán)重,通過用戶like或者follow的行為增加對應(yīng)treatment的權(quán)重,提高歸因的準確性。在有干預(yù)的情況下,去尋找干預(yù)帶來的影響,可以通過post-pre去偏的方法實現(xiàn)。除此之外,想要映射無限多treatment到對應(yīng)的lift,有時還需要采用propensity score,帶有傾向得分計算,有助于幫助我們利用數(shù)學(xué)或matching的方法將bias消除掉。

最后總結(jié)一下因果分析,它源于一些傳統(tǒng)科學(xué)例如社會科學(xué)、生物學(xué)等,如今在數(shù)據(jù)科學(xué)領(lǐng)域也有了很深的發(fā)展,也在公司廣泛應(yīng)用。它和機器學(xué)習、深度學(xué)習、推薦算法、強化學(xué)習和遷移學(xué)習是融合在一起的,其本質(zhì)還是尋找有效的樣本,解決更本質(zhì)的問題。

05

精彩問答

Q1:因果分析的這套模型主要應(yīng)用在整個推薦技術(shù)的哪個階段?

A1:推薦系統(tǒng)主要經(jīng)過召回→排序→重排階段,在我個人的實際應(yīng)用中,是將其應(yīng)用到推薦的最后重排階段,主要人類強干預(yù)增加的,進行一些結(jié)果的修正。常規(guī)情況,會將其應(yīng)用到排序階段,因果推斷不是用于替代現(xiàn)有的資源系統(tǒng),而是輔助現(xiàn)有系統(tǒng),利用增加權(quán)重的方式進行改進,凸顯出有效樣本同時剔除無效樣本。

Q2:在大量的item的情況下,會不會根據(jù)內(nèi)容或者屬性進行分類,減少歸因的復(fù)雜度?

A2:會的,我們最希望解決的是每個item對于留存的貢獻,但是這樣做是很困難的,通過不同品類不同作者等屬性分類,大致計算也可以獲得一些相對粗略的結(jié)果,利用每個用戶的policy推薦策略,將其從無限多treatment的問題變成多treatment的問題,使得這類問題可解。

Q3:中活和高活躍度用戶比起新用戶和低活用戶,他們的treatment和用戶行為數(shù)據(jù)是大量的,我們?nèi)绾尾捎锰卣鬟x擇或者數(shù)據(jù)壓縮等方法,將其應(yīng)用到中活和高活躍度用戶群體上?

A3:中活和高活躍度用戶群體除了數(shù)據(jù)量上有區(qū)別以外,在收斂性質(zhì)上也有區(qū)別。新用戶的數(shù)據(jù)樣本是具有一定隨機性的,因為推薦系統(tǒng)還沒有表現(xiàn)得特別好,相反高活用戶在推薦數(shù)據(jù)表現(xiàn)上已經(jīng)具有很強的傾向性。而因果推斷就是要通過去偏,構(gòu)造一個平均化的模型。因此根據(jù)因果推斷的本質(zhì)思想,可以將exposure bias或者偏好bias剔除,將其恢復(fù)到一個隨機的分布,再用平均理論,反推其item的lift,理論上就可以實現(xiàn)。

Q4:如果在整個推薦系統(tǒng)中,增加一份1%的隨機流量,會怎樣利用這個隨機流量去構(gòu)建因果推斷模型呢?

A4:隨機流量本身不能去替代matching或者PSM的分析方法,它的作用是幫助我們更好理解用戶本身的偏好。但擁有這個隨機流量,在模型修復(fù)模塊可以簡單的歸因到隨機流量上。但是隨機流量和非隨機流量是共同作用在用戶上的,會共同影響用戶的留存,也得考慮隨機和非隨機的差異,通過matching或者反事實的理論實現(xiàn)去偏。

今天的分享就到這里,謝謝大家。

來源:咨詢AD知識分享

以上是關(guān)于用戶增長師的相關(guān)信息,以供大家查看了解。想要了解更多用戶增長師信息,第一時間了解用戶增長師相關(guān)資訊,敬請關(guān)注唯學(xué)網(wǎng)用戶增長師欄目,如有任何疑問也可在線留言,小編會為您在第一時間解答!


0% (10)
0% (0)
已有條評論