基于預測度量值的IPTV用戶行為規(guī)則預測算法(通訊)
汪敏娟1,2,嵇正鵬3,呂超1,2
(1.江蘇省公用信息有限公司,江蘇南京210006;2.中國電信股份有限公司智慧家庭運營中心,江蘇南京210006;3.中國電信股份有限公司江蘇分公司,江蘇南京210003)
摘 要:提出了一種符合用戶行為的,基于海量IPTV用戶特征數(shù)據(jù),對IPTV用戶進行分群和規(guī)則提取的算法模型。首先提出了符合用戶點播使用行為的IPTV用戶分群的描述維度,即通過基礎屬性描述用戶分群、通過點播行為描述用戶分群變化趨勢。然后提出了預測度量值的概念,對用戶分群的穩(wěn)定性進行描述,并提出了對穩(wěn)定的用戶分群提取點播行為概率的算法。最后通過大量的IPTV運營數(shù)據(jù)對算法模型進行了驗證分析。
關鍵詞:IPTV;點播行為;等價類劃分;信息熵;預測度最值;規(guī)則提取
中圖分類號:TP181 doi: 10.11959/j.issn.1000-0801.2016153
1 引言
IPTV(intemet protocol television,網(wǎng)絡協(xié)議電視)是以網(wǎng)絡協(xié)議為基礎,面向電視終端,通過寬帶網(wǎng)向用戶提供交互式電視及增值服務的業(yè)務舊。在業(yè)務的發(fā)展和運營過程中.IPTV平臺已積累了海量用戶特征屬性數(shù)據(jù)。這些數(shù)據(jù)是在用戶辦理業(yè)務和使用業(yè)務過程中積累的、對用戶基本信息和使用信息的描述。用戶特征屬性數(shù)據(jù)蘊含了豐富的用戶行為信息。如何在這些海量的信息中提取出有意義的用戶行為特征,用于有效地指導IPTV業(yè)務運營與服務,已成為當前研究的熱點問題。用戶行為特征的預測算法研究,無論對于運營商,還是對于用戶,都具有很高的經(jīng)濟價值和實際意義。
國內(nèi)外很多學者、運營機構(gòu)對于IPTV用戶行為特征預測進行了研究。目前的研究工作主要通過計算用戶與內(nèi)容的關聯(lián)關系、學習用戶興趣標簽、用戶聚類等角度展開。基于用戶聚類的關聯(lián)推薦算法,利用皮爾曼相關系數(shù)和斯皮爾曼相關系數(shù)來確定IPTV用戶群與內(nèi)容之間的偏好關系;提出從業(yè)務的用戶使用場景出發(fā),結(jié)合用戶標簽加強推薦的針對性;將一種單蟻群聚類應用于IPTV用戶群偏好分析中,解決了用戶偏好發(fā)現(xiàn)問題;提出了在沒有先驗知識的情況下,利用生態(tài)位理論計算IPTV服務之間的“競爭系數(shù)”,從而選取更為符合期望的服務的方法。上述工作都對利用IPTV用戶特征屬性信息進行用戶分類、通過用戶分類進行行為預測提供了有效解決方式。
在IPTV的實際運營過程中發(fā)現(xiàn),用戶的特征屬性數(shù)據(jù)可分為基礎屬性和點播行為兩類。基礎屬性是描述用戶基本特征的數(shù)據(jù)(如所在地區(qū)、職業(yè)、產(chǎn)品套餐類型等);點播行為是在運營過程中產(chǎn)生的,隨著用戶使用業(yè)務而動態(tài)變化的數(shù)據(jù)(如平均消費值、最常收看的頻道類型等)。
用戶的點播行為是從無到有、不斷變化的,而往往具有相同基礎屬性的用戶在點播行為上表現(xiàn)出了一定的共性。另外,由于用戶使用IPTV業(yè)務均經(jīng)歷了從陌生到熟悉的使用習慣培養(yǎng)過程,故處于不同狀態(tài)階段的用戶特征屬性數(shù)據(jù)對行為特征預測的貢獻是不同的。可見應該從已趨于穩(wěn)定狀態(tài)的用戶群體中獲取行為特征,這樣得到的規(guī)則較為貼近實際運營情況。而目前從上述角度進行研究的工作較少。
為此,從研究某些IPTV用戶群是否適宜于進行用戶行為預測人手,建立了一種全新的IPTV用戶行為特征預測算法模型。首先利用IPTV用戶的基礎屬性對用戶進行基本分類,而后對每個基本分類中用戶的點播行為是否已經(jīng)趨于穩(wěn)定進行觀測。對于用戶點播行為已趨于穩(wěn)定的用戶進行基本分類,計算出分類中點播行為出現(xiàn)的概率數(shù)據(jù),利用此概率數(shù)據(jù)對IPTV用戶的行為進行預測。通過對實際運營應用數(shù)據(jù)的分析與比較,提出的算法模型有效地提升了IPTV用戶行為預測的準確性和用戶行為預測的計算效率。
2 IPTV用戶基本分類與預測度量值
2.1 IPTV用戶基本分類模型
研究的IPTV用戶行為特征預測算法模型,是以用戶特征屬性信息為基礎進行知識學習的計算模型。首先基于對用戶在各基礎屬性上的取值,通過等價關系運算來對IPTV用戶進行等價劃分,每個等價劃分對應一個用戶基本分類。
基于上述定義對IPTV用戶進行基礎分類劃分的算法模型如圖1所示。通過對IPTV用戶核心基礎屬性值與已知各IPTV用戶基本分類在核心基礎屬性上的取值相比較,在取值函數(shù)上取值相同的,即可將用戶劃分到該基本分類中。不斷地重復上述過程,即可不斷地根據(jù)用戶基礎屬性的取值來建立用戶基本分類。
2.2基本分類的預測度量值
通過把IPTV用戶劃分為若干個基本分類后,即可開始對各分類在運營過程中的變化情況進行觀測。中提出,在IPTV運營過程中,絕大多數(shù)的用戶會經(jīng)歷從對業(yè)務不熟悉到逐漸形成自己使用習慣的過程。即大多數(shù)用戶使用了一定時期IPTV業(yè)務后,其對業(yè)務的使用習慣一般會停留在一個穩(wěn)定的、有規(guī)律的狀態(tài)附近。但如何來確定某一個用戶基本分類已經(jīng)趨于穩(wěn)定,我們借鑒Shannon等人提出的經(jīng)典信息熵概念:任何信息都存在冗余,冗余的大小與信息微觀的不確定性有關。而信息熵就是用來描述信息源不確定程度的概念,即熵值越大,其不確定性越大;熵值越小,其確定性越大。
在對IPTV用戶的預測過程中,對于已經(jīng)趨于穩(wěn)定的用戶基本分類,其用戶體現(xiàn)同類型點播行為的可能性越大。本文提出的預測度量值,就是利用信息熵的概念,對每個基本分類中海量的用戶點播行為進行概率計算,用于判定當前的用戶基本分類是否已經(jīng)趨于確定。
設通過第2.1節(jié)的理論對IPTV用戶集U劃分得到的
依據(jù)信息熵的計算法則,定義IPTV用戶基本分類點播行為的信息熵如下。
定義2 某IPTV用戶基本中分類點播行為d的信息熵為:
H(d j)描述了某一個點播行為的不確定性。它通過其所有可能取值的變化情況來描述該屬性當前的狀態(tài)。對于一個IPTV用戶基本分類來說,其預測度量值為其包含的所有點播行為信息熵之和。
IPTV用戶基本分類的預測度量值為:
H(X i)在傳統(tǒng)的對信息變化描述的基礎上,通過對IPTV用戶基本分類中點播行為變化情況的匯總,來表示當前分類整體點播行為的不確定性。
使用預測度量值表示在一個IPTV用戶的基本分類中,其所有用戶的點播行為是否已趨于穩(wěn)定狀態(tài)。預測度量值越大,表示該分類中的用戶行為仍處于較為混亂的狀態(tài),意味著該分類暫時無法用于用戶預測;預測度量值越小,表示該分類中的用戶行為已趨于穩(wěn)定,意味著該分類已形成了一類用戶行為的描述。即隨著用戶逐步形成自己的使用習慣后,其點播行為雖仍在不斷變化,但已趨于某一種規(guī)律。
IPTV用戶基本分類預測度量值算法具體如下。
3 lPTV用戶行為規(guī)則分析
得到每個IPTV基本分類對應的預測度量值后,對低于預設閾值的基本分類,認為其已基本趨于穩(wěn)定。在IPTV業(yè)務運營過程中,可根據(jù)當前各基本分類預測度量值實際取值和運營經(jīng)驗來預設閾值。一般來說,在一定時間周期內(nèi),某個用戶基本分類的預測度量值停留在一個較低的取值區(qū)間且沒有發(fā)生較大范圍的波動時,可認為其已趨于穩(wěn)定。
在趨于穩(wěn)定的用戶基本分類X中,用戶在基礎屬性上等價,在點播行為上取值不同,但保持了一定的變化規(guī)律。因此可通過對基本分類X中IPTV用戶基礎屬性取值與點播行為取值的統(tǒng)計關系來得到某一類IPTV用戶的行為特征。
4實驗分析
對Ⅳ市12個月內(nèi)IPTV用戶的行為進行了預測實驗。數(shù)據(jù)包括了Ⅳ市IPTV用戶的基礎屬性和第1-12個月的點播行為數(shù)據(jù)。具體數(shù)據(jù)見表1。
首先根據(jù)用戶的基礎屬性對用戶進行分類,計算其預測度量值,并通過對已趨于穩(wěn)定的用戶基本分類進行用戶行為特征預測,并將預測結(jié)果與12月的實際點播行為情況進行比對,以驗證預測規(guī)則的準確性。
按照提出的用戶基本分類算法,將Ⅳ市分成了30余個用戶基本分類,針對各分類計算其1-11月的預測度量值。表2是Ⅳ市用戶基本分類取值范圍的情況。從表2中可以看到,用戶基本分類的預測度量值處于一個“兩頭小、中間大”的狀態(tài),即部分基本分類已趨于穩(wěn)定、少量分類處于大量變化階段、多數(shù)用戶分類處于由不穩(wěn)定到穩(wěn)定的變化過程中。
選取了預測度量值最小的3個基本分類、預測度量值最大的1個基本分類。其預測度量值1-11月份的變化情況如圖2所示。從圖2中可以看到,通過11個月的運營,用戶基本分類A、B、C的預測度量值已逐步由較高的取值降低到一個平緩的取值范圍,但也存在用戶基本分類D,其預測度量值始終處于不斷變化的狀態(tài)。
通過對上述用戶基本分類的走訪,發(fā)現(xiàn)用戶基本分類D中的絕大多數(shù)用戶屬于集體宿舍、賓館等形態(tài)的用戶。用戶流動性大、使用人群不固定,故其預測度量值始終處于一個變化的范圍。而對于基本分類A、B、C來說,其絕大多數(shù)IPTV業(yè)務用戶為普通家庭用戶,通過一段時間的業(yè)務使用,其使用習慣已逐漸趨于穩(wěn)定,月均消費額、最常觀看的直播頻道、點播標簽等運營特征數(shù)據(jù)均已處于一個穩(wěn)定的范圍內(nèi)。
對于已趨于穩(wěn)定的用戶基本分類A、B、C,可通過其特征屬性進行用戶行為特征的預測。通過IPTV用戶的預測算法,提取用戶基本分類A、B、C中的行為規(guī)則,并將預測的規(guī)則與這3個基本分類在12個月的實際點播行為進行對比,用于驗證預測規(guī)則的準確性。對比情況見表3。
從表3可以看到.3個用戶基本分類點播行為的預測值和實際值的誤差率都在8%以內(nèi),能夠有效地為運營人員針對不同的用戶基本分類進行有針對性的運營提供數(shù)據(jù)基礎。
5結(jié)束語
提出了一種符合IPTV業(yè)務特征的分類及行為分析算法,結(jié)合實際運營經(jīng)驗將IPTV用戶特征屬性劃分為基礎屬性和點播行為,利用基礎屬性對用戶進行分類,利用點播行為描述各用戶分類的變化情況,當用戶分類變化趨于穩(wěn)定時,計算該基本分類中用戶的基礎屬性與點播行為之間的概率關系,并將該概率關系輸出為行為規(guī)則,用于指導IPTV業(yè)務運營。通過對實際運營數(shù)據(jù)的分析,本文提出的預測算法明顯地提升了IPTV用戶預測的準確性,也降低了IPTV用戶分類、行為規(guī)則提取的計算開銷。
在后續(xù)的工作中,需對IPTV用戶的特征屬性分類提出更為精確的劃分標準,并優(yōu)化對IPTV用戶基礎屬性分類算法和計算規(guī)則的約定,進而通過大規(guī)模數(shù)據(jù)統(tǒng)計規(guī)律來優(yōu)化對用戶點播行為信息熵、預測度量值的閾值估算方法。