愿每個人都是可以丑小鴨變白天鵝
一、用戶畫像是什么?用戶畫像是指參照用戶的基本屬性、用戶偏好、生活習慣、用戶行為等信息而抽象概念出的標簽化用戶模型。每一個標簽及標簽權重即為用戶的一個向量,一個用戶這個可以解釋為超維空間的多個向量(標簽)的和。即通過數據方式來詳細解釋用戶,到了最后將一個用戶表達為計算機可能識別的用戶,得以為基礎實現程序用戶畫像應用。
二、用戶畫像應用當一個用戶可以不被計算機各個識別再理解后,我們就這個可以利用做精準營銷、個性化推薦等基本性工作,其作用總體除了:
精準營銷:參照用戶特征,因為某種特定群體,借用短信、郵件、AppPush、App彈窗、微信公眾號、微信群等方式接受營銷。用戶做統計:依據什么用戶的屬性、行為特征對用戶接受分類后,統計有所不同特征下的用戶數量、分布;講完全不同用戶畫像群體的分布特征。個性推薦:以用戶畫像為基礎最終形成推薦系統、搜索引擎、廣告投放系統,提升轉化率。產業分析:是從用戶畫像分析這個可以清楚行業動態,諸如人群消費習慣、消費偏好總結、相同地域品類消費差異總結。三、用戶畫像如何能提供給不超過能力用戶畫像有以內應用,到底是怎摸應用的呢?我們一個一個請解釋一遍。
1.精準營銷依據什么用戶特征,針對某一特定群體,憑借短信、郵件、AppPush、App彈窗、微信群、h5等方式并且營銷。如果沒有用戶畫像,也能能夠完成短信、郵件、Apppush、App彈窗的運營,但是又不能只要資源有效利用。
為什么?在平臺用戶量低的時候,我們非常容易做運營,我們將運營內容全量推送,發現到召回率、轉化率并肯定不會比較高。這是是因為初期我們的用戶都很精準,所以我召回率轉化率絕對不會很低。但與此同時用戶基數的慢慢的增加,這種運營效果越來越差轉化率更加低。
而且緊接著用戶量的增加,推送的內容不能打動他的心那一小撮人,為了提升被轉化效率,運營管理位資源的最有效利用,我們要動用用戶畫像的能力。
(1)分群運營
分群運營是此問題挺好的解決方案,實際用戶畫像的標簽再次篩選,篩選后出不同的用戶群,篩選后出的用戶群每個用戶群都是一個真正id。通過push或彈窗配置平臺,然后輸入用戶群id實現程序精細化運營。
(2)自動化運營
我們讓用戶群的粒度無窮大,后來會小到一個個體。我們因為每個個體去做push或是彈屏,運營效率我還是太低了。設計和實現用戶畫像的自動化運營就發揮了作用。我們互相查查如何能實現方法自動化運營。
粗略地代培生(城市:北京;屬性:新用戶)此類設置為柯西-黎曼方程業務需求,比如暑假低價課的廣告彈屏只根據是沒有購買過會導致班的用戶。這是方式事實標簽來實現。精致細膩定向:可以設置偏好標簽及標簽值來可以確定非常精細用戶群。原理很簡單點,給一個策略設定好偏好標簽及標簽權重后,普通在空間中繪制的出一個用戶向量,我們用神秘用戶向量與此向量進行空間向量的余弦相象計算出,或歐幾里得距離換算相似性,最相似的則不優先顯示。要是完全相同有幾分相似則按創建時間倒敘展示。這樣的話設置權重好處:也可以挺好的的盡量減少相同業務部門App內流量的你爭我奪。只有一系統設置的標簽才組織換算,并非全部標簽接受相似可以計算。設置push文案push廣告素材設定結束結束后機制(時間控件)舉個例子:
背景:
暑期都結束了場景下的收心課;對于是沒有報名暑假會導致班的學員;目標100w。配置:
設置人群;也沒網上購買2019暑期會導致班的學員;可以設置權重:數學:0.8,短期班:0.7,暑假:0.6,開學后:0.5;設置文案:親愛的斑馬家長你好,暑假祝生活,學而思網校為您打算9.9元10節暑假數學收心課;可以設置廣告素材:http://**.ban**.com;時間設置:2019/08/23-2019/08/24。圖示:
2.用戶統計數據據用戶的屬性、行為特征對用戶并且分類后,統計不同特征下的用戶數量、分布、走勢等。
這里不做多論述,參考神策。截圖大家建議參考下,數據已脫敏療法。
北京的-能完成加購物車能操作的用戶數的趨勢
3.用戶分成4.個性推薦個性我推薦:以用戶畫像為基礎構建體系推薦系統、搜索引擎、廣告投放系統,提升轉化率。
這里應該可以介紹下推薦模型,其他與我推薦邏輯我不是很清楚。
推薦系統一般都分成三類招回和排列兩個階段。是因為全量物品(Item)常見數量非常大,無法為一個用戶(User)無一遺漏計算每一個物品(Item)的評分,這時候就要一個處置階段,當然那是預做篩選一部分物品(Item),進而減少可以計算量。
上萬本Item——招回(粗排)——候選**——排序(精排)——排序列表——規則(多元化我推薦)——我推薦結果。用戶畫像之外主要是用于到了最后自動分配評分,還要應用于在招回。
那用戶畫像是怎么做招回?
我們先看看用戶畫像的用戶偏好表存儲(用戶畫像有好多個表,文章畫像構建部分會具體看解說):
當我們購買結束一個中有標簽id1,標簽id2,標簽id3的課程后,就像在去購買能夠完成頁會有連在一起銷售場景,我們通過用戶偏好表的標簽及權重,實現用戶相象,或Item相象的協同過濾算法,招回一部分課程。這是粗排的過程。簡單的理解就是可以找到用戶不喜歡的其他課程。
協同過濾:設計和實現用戶相似推薦:
歐幾里得距離公式
userid1與userid2=√[(標簽id1-標簽id1)^2+(標簽id2-標簽id2)^2+···(標簽idn-標簽idn)^2]
5.行業研究行業調研就挺好的明白了,我們每天都聽得馬爸爸拿一些標簽,那說明這個地方人喜歡買什么?為啥比較喜歡買?那個地方人就是喜歡買什么?為么比較喜歡?
最比較經典的應該是每年的年終總結H5,這里不太多一一列舉此內容。
四、用戶畫像的搭建中1.標簽管理系統搭建中(1)什么是標簽管理系統?
標簽與用戶畫像的關系,在介紹什么是用戶畫像時候就早就提過。
我們說再看看什么是標簽管理系統:
一般來說,將能關聯到具體一點用戶數據的標簽,稱做葉子標簽。對葉子標簽進行分類匯總的標簽,稱做父標簽。父標簽和葉子標簽共同組成標簽體系,但兩者是要比概念。
用戶畫像的本質就是可以使用有所不同的標簽來具體解釋思想感情用戶,那這些標簽是不需要我們事前準備好好的。每個用戶也有成千上萬的標簽,我們魔獸維護這么大量級的標簽,我們當初要先形成完整和健康的標簽體系。
因此標簽管理系統要支持什么對所有標簽查詢、修改、徹底刪除、新增加等功能,要注意除開兩個模塊:標簽樹和標簽去查詢。
標簽樹:以樹形結構完全呈現標簽之間的層級和邏輯關系,另外是可以對不可以層級的標簽名進行直接修改、2020年規劃和刪出;標簽網站查詢:對某一時間段內的標簽通過查詢,可以不實現程序可以自定義去查詢及條件查詢,并實現程序標簽下的用戶數的統計功能。(2)標簽管理系統功能列表
(3)標簽管理系統頁面
(4)標簽體系構建
1)偏好標簽
偏好標簽簡單啊理解那是用戶對相同標簽的喜愛程度,方式用戶與標簽的行為類型、行為權重、行為次數、時間衰減作用來計算出。強盜團具體詳細解說如何能接受計算出,偏好標簽是做推薦及策略方向最重要的標簽。
2)標簽梳理
該類標簽梳理很簡單的,在我們數據倉庫中有相同的內容表。
諸如課程數據庫表結構:上課地點、上課時間、老師、價格、大綱、評價……
比如教師表結構:教師名稱、有無教師資格證、年齡、學校、性別、評價……
這里每一個字段那是一個偏好標簽,當然字段值又是標簽。畢竟用戶與這些內容**,借用是與這些標簽放生關系。
偏好標簽是固定設置的,絕不可以編輯修改,數據來源于平臺內全部內容的表字段及值。
3)事實標簽
信息標簽:用戶的基本信息標簽(城市、年級、年齡、性別……)業務標簽:不知從何而來業務的標簽(在讀、非在讀、長期班、中短期班、語文、數學、英語……)規則標簽:可以自定義的規則(低潛、中潛、高潛、核心)4)標簽梳理
用戶基本信息,用戶業務信息,工作人員定的規則,比如:低潛用戶,中潛用戶……
5)預測標簽
這種標簽是參照機器學習預測的標簽,例如:耗損預測國家,丹東客運站預估,能量轉化分析預測等等。
6)標簽梳理
很簡單啊,就這樣十幾個想預測國家啥就再添加啥。標簽之間具高層級的邏輯關系,1級是2級標簽的父級,2級是1級標簽的子級,以此類推。
偏好標簽決不可編輯,數據來源于差別內容的表字段。事實標簽與預測標簽當子級有內容則父級決不可刪除掉,但可編輯。僅有下級沒有任何子級的情況下這個可以進行刪掉你操作。
2.標簽權重可以計算這里的標簽權重可以計算指代偏好標簽。
畫像的用戶偏好標簽存儲結構:
這里的每一個用戶每一個標簽下的值那就是標簽的權重,這節講解的重點。
這個標簽權重引響著對用戶屬性的按性質分類,屬性知識分類不確切,這一次給予畫像對用戶并且幫我推薦,精細化運營也就無從查起談起。
(1)基于組件TF-IDF算法計算
1)算法思想
用戶標簽權重,是由該標簽對用戶本身的重要性與該標簽在業務上,對用戶的重要性約定做出決定的。
標簽本身對用戶重要性是方式TF-IDF換算換取的,業務權重是實際用戶對標簽的行為來確定的,即:
用戶標簽權重=業務權重*TF-IDF權重用戶標簽權重=行為類型權重*行為次數*時間能量損失*TF-IDF權重2)簡單的理解
是用戶對一個標簽,會有差別行為高效觸達,完全不同的行為有完全不同的難度,比如:定購行為大于0搜索行為,搜索行為大于0網頁行為。所以我相同行為是會有相同的權重,行為越難屬於越比較喜歡,權重越高同理可得行為次數一定也代表越不喜歡。
標簽對這個用戶來說越低幾率貞潔戒越不喜歡,很喜歡程度會與此同時時間的增加而漸漸減少,實際這個公式計算標簽權重。
3)行為類型權重
用戶打開瀏覽器、再點、搜索、收藏、分享、下單付款、去購買等相同行為對用戶不過有差別重要性,一般使用主成分分析法定義一個基本行為權重。
4)行為次數
這里的行為次數它表示每一種行為的次數。
5)時間衰減作用
時間衰減是指用戶的行為會隨著時間的流逝,用戶偏好會斷的減弱。在組建與時間脈沖前沿相關的函數時,我們可套用牛頓冷卻定律數學模型。
牛頓冷卻定律:
較熱物體的溫度F(t)是與此同時時間t的增長而顯現出指數型能量損失,其溫度衰減公式為:F(t)=T×exp(-α×t)。
T:數碼寶貝傳說溫度α:衰減時間常數即加熱系數,是自己定義方法的數值,一般是從回歸可算出得出來t:時間間隔冷卻系數怎么計算出呢?
冷卻系數是自己定義,定義的數值,就像通過回歸可計算得出的結論。例如:初始溫度100攝氏度,1小時后的溫度為85攝氏度,即85=100×exp(-α×1),易求α=0.16。
在這里我們用R語言來模擬看看這個冷卻曲線
wendu<-100*exp(-0.16*t)t<-c(1:100)plot(x)6)TF-IDFTF-IDF = TF*IDFTF:
這里我們用N(P,T)可以表示一個標簽T被主要用于標簽用戶P的次數。
TF(P,T)意思是這個紅色標記次數在用戶P所有標簽標記次數中所占的比例。
TF(P,T)=N(P,T)/ΣN(P,Ti)
N(P,T):打在某用戶身上某個標簽的個數
ΣN(P,Ti):該用戶身上所有的標簽的個數
Ti該用戶全部標簽個數
IDF:
IDF(P,T):可以表示標簽T在全部標簽中的極度稀缺程度
假如一個標簽又出現的幾率很小,而被用戶標記某個用戶,這就讓該用戶與該標簽T之間的關系更加緊密。
IDF(P,T)=ΣΣN(Pi,Ti)/ΣN(Pi,T)
ΣΣN(Pi,Ti):全部用戶的全部標簽之和
ΣN(Pi,T):所有打T標簽的用戶之和
7)計算方式
舉例子:
用戶“斑馬”,對此標簽“語文”的標簽權重可以計算:題中我們之后定義冷卻系數α=0.16。
行為表:
2019-08-22
2019-08-23
2019-08-24
用戶“斑馬”對標簽“語文”的權重:
2019-08-22:語文=2*0.1+2*0.2+3*0.6+1*0.5+1*0.9=3.8
2010-08-23:語文=3.8*exp(-α*1)+1*0.1+1*0.2+2*0.6+1*0.5+0=5.067718
2010-08-23:語文=5.067718*exp(-α*1)=4.318424
3.標簽存儲
(1)事實標簽
1)基礎信息表2)事實標簽-在讀信息表
3)事實標簽-報名信息表
4)事實標簽-規則信息表
(2)偏好標簽&預測國家標簽
本文由斑馬原創首頁于產品壹佰平臺,未經授權,私自轉載和商用。
(2)偏好標簽&預測標簽
本文由 斑馬 原創發布于產品壹佰平臺,未經許可,禁止轉載和商用。
Copyright 2021 快鯨
掃碼咨詢與免費使用
申請免費使用