說明:如果您有任何疑問或想咨詢其他業(yè)務(wù)請撥打電話 400 685 0732
全網(wǎng)監(jiān)測海量數(shù)據(jù)按需發(fā)布監(jiān)測預(yù)警
實時把握輿情動態(tài)精準(zhǔn)追溯信息源頭
嗯?你不知道曹大神是誰?額,那還是先來曬曬他的履歷吧。咦,在百度百科上竟然沒找到,好吧,果斷找到了知乎上的說明。
曹政,網(wǎng)名caoz。俞軍(不知道是誰的點這里)的關(guān)門弟子,CNZZ統(tǒng)計工具的,前百度商業(yè)產(chǎn)品部boss,4399CTO。曾參與創(chuàng)建一統(tǒng)統(tǒng)計,cnzz站長統(tǒng)計,并曾主持搭建百度商業(yè)分析支撐平臺,數(shù)據(jù)控。
這里,丟個知乎上關(guān)于他的介紹地址好了,有興趣的親們,請點進(jìn)去自己看哈。
不能跑題,這里是繼續(xù)來說數(shù)據(jù)分析的,其實也不算是什么博大精深的東西,但是對于俺們這種入門級的玩家來說,也算是一個很好的指導(dǎo)吧。
一、關(guān)于數(shù)據(jù)感
Rude曰:一個甲方的接口人,每次我把報表給他時,他總是一看能發(fā)現(xiàn)一些我根本注意不到的問題,之前感覺十分神奇,忽然找到了給他這種本領(lǐng)的定義,數(shù)據(jù)感。
下面是caoz對數(shù)據(jù)感的定義:
什么是數(shù)據(jù)感?是別人說一個數(shù)據(jù)出來,你會琢磨一下這個是否符合常理,與你日常的數(shù)據(jù)觀測經(jīng)驗是否一致,如果不一致,那么可能的理由是哪些? 比如12306號稱幾十億次點擊,如果你有數(shù)據(jù)感,眼會質(zhì)疑這個“點擊”定義的合理性;比如曾經(jīng)有人說某國內(nèi)圖片分享網(wǎng)站多少億訪問量,眼知道這個“訪問量”定義是有歧義的,(事后官方解釋是圖片加載量,這個和訪問量差異幾十倍。) 數(shù)據(jù)感需要不斷的培養(yǎng),和基本的邏輯(比如你應(yīng)該知道中國有多少網(wǎng)民,每天有多少人上網(wǎng),一個大概什么類型,什么排名的網(wǎng)站會覆蓋網(wǎng)民的比例是多少),以及善于利用各種工具,我以前在巨頭公司,得益于公司巨大的數(shù)據(jù)資源,可以看到很多互聯(lián)網(wǎng)的核心數(shù)據(jù);但是離開后,才發(fā)現(xiàn),其實互聯(lián)網(wǎng)上公開可獲取的數(shù)據(jù)途徑是非常多的,而且善于利用的話非常有效。每天去查詢一些感興趣的數(shù)據(jù),經(jīng)過一段時間積累,想沒有數(shù)據(jù)感都難。
作為公司或團隊負(fù)責(zé)人,怎么培養(yǎng)員工的數(shù)據(jù)感,我其實也有一個建議,平時可以搞一些小的競猜,比如團隊集體競猜新產(chǎn)品或產(chǎn)品改版上線后的日活躍用戶,或者pv數(shù)字,或者收入數(shù)據(jù),等等;然后看誰的準(zhǔn),一種是懲罰制,不準(zhǔn)的請準(zhǔn)的喝奶茶,吃冰淇淋;另一種不懲罰,準(zhǔn)的累計積分后公司可以發(fā)一些獎品鼓勵,這樣下去大家的數(shù)據(jù)感會在日常培養(yǎng)起來,而且對團隊的氣氛培養(yǎng)也有幫助。
二、關(guān)于數(shù)據(jù)分析的方法
Rude曰:說道這個,或許答案應(yīng)該是各種語言,各種算法。但是 ,仔細(xì)想想,或許此處也應(yīng)該遵循簡單粗暴有效的方式。
曹大神曰:談數(shù)據(jù)分析的方法,我的建議是,不炫技,不苛求技術(shù)復(fù)雜度,簡單的數(shù)據(jù),所包含的信息往往是有價值的,而很多人恰恰這一步都沒做好,總想著弄一堆挖掘算法;數(shù)據(jù)的價值在于正確的解讀,而不是處理算法的復(fù)雜度,切不可喧賓奪主。 大公司的kpi制度,往往會產(chǎn)生偏差,比如技術(shù)工程師的評定,要講究“技術(shù)復(fù)雜度”、“技術(shù)性”,直接導(dǎo)致簡單的事情沒人肯做,基本的工作不認(rèn)真做!所以往往是大公司的分析工程師,為了評工程師,非要簡單問題復(fù)雜化,四則運算搞定的事情一定要弄一套詭異的算法,終非但浪費了資源,消耗了時間,而且往往由于工程師對業(yè)務(wù)理解的漠視,對應(yīng)的產(chǎn)品人員又對算法的陌生,導(dǎo)致了嚴(yán)重的理解歧義,從而出現(xiàn)各種誤讀。
三、關(guān)于數(shù)據(jù)解讀
Rude曰:這里,表示屬于一個空白區(qū),但是,確實可以感受到有時候根據(jù)數(shù)據(jù)下的結(jié)論還是有偏差的,我將這種錯誤歸結(jié)為邏輯上的偏差。
曹大神曰:
數(shù)據(jù)解讀,不能是為了迎合誰,要遵循數(shù)據(jù)的本質(zhì),要遵循科學(xué)的邏輯,要有想象力(配合求證),可能有時候也需要依賴人脈關(guān)系所獲得的情報,(這個也有很多典型范例),這個具體再怎么說可能我也說不清楚,說幾個反面例子也許更容易理解。
1、因果關(guān)聯(lián)錯誤,或忽略關(guān)鍵因素,A和B的數(shù)據(jù)高度相關(guān),有人片面認(rèn)為A影響了B,或者B影響了A;但是,有時候真實原因是C同時影響了A和B,有時候C被忽略掉了。
2、忽略沉默的大多數(shù),特別是網(wǎng)上投票,調(diào)查,極易產(chǎn)生這種偏差,參與者往往有一定的共同訴求,而未參與者往往才是主流用戶。
3、數(shù)據(jù)定義錯誤,或理解歧義,在技術(shù)與市場、產(chǎn)品人員溝通中產(chǎn)生信息歧義,直接導(dǎo)致所處理的數(shù)據(jù)和所需求的數(shù)據(jù)有偏差,結(jié)果顯著不正確。
4、強行匹配;不同公司,不同領(lǐng)域的數(shù)據(jù)定義可能不一致,在同一個公司內(nèi)或領(lǐng)域內(nèi)做對比,往往沒有問題,大家對此都很習(xí)慣,卻有評論家不懂裝懂,強行將不同定義的數(shù)據(jù)放在一起對比做結(jié)論,顯著失真;海外金融機構(gòu)在分析中國頁游和端游市場連續(xù)犯這類錯誤。
5、忽略前提;有些數(shù)據(jù)結(jié)論是基于某種前提,符合某種特定場景下得出的,但是解讀者有意或無意忽略前提,將結(jié)論擴大化,顯著誤讀。
6、忽略交互;在商業(yè)模式改造和產(chǎn)品改進(jìn),往往都會出這類問題,簡單說,你游戲中的道具降價,對收入的影響是增還是減?如果忽略交互,僅僅依賴于數(shù)據(jù)推算,當(dāng)然是減,但是實際呢?做運營的都知道。
7、缺乏常識;如果對一些重要的紀(jì)念日,節(jié)日,或者網(wǎng)購節(jié)不了解,那去處理有關(guān)數(shù)據(jù)顯然不知所云了。做行業(yè)報告更是如此,很難想像對行業(yè)不了解的人能做出怎樣的報告。
8、無視樣本偏差;我們通常做數(shù)據(jù)調(diào)研,是基于樣本數(shù)據(jù),而采樣過程本身很難做到完全的公平和分散,樣本偏差要控制在合理范疇內(nèi),即便無法控制,在結(jié)論中也需要標(biāo)注;這才是嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)解讀,對樣本偏差視而不見,甚至為了某種宣傳目的刻意尋找偏差的樣本,都不可能做出好的數(shù)據(jù)結(jié)論。
四、關(guān)于數(shù)據(jù)怎么看
Rude曰:數(shù)據(jù)需要對比,細(xì)分之后總能找到問題的癥結(jié),這點在之前的工作中相當(dāng)之有體現(xiàn)。
曹大神曰:
簡單說是“對比,細(xì)分,溯源” 六字真言,沒了。
對比,數(shù)據(jù)放在那里,是沒意義的,你說你游戲周流失率80%,啥情況?不知道,你問我我也不知道。對比起來才知道。
一是橫比,你拿出50款游戲來比,別人平均流失率90%,你80%,你游戲還不錯勒,別人要平均流失65%,你80%,這有問題了。
二是縱比,和自己時間軸比,你兩個月前1.0版本流失率90%,你現(xiàn)在80%,有進(jìn)步么,你要是兩個月前是50%,現(xiàn)在80%,好好反思嘍。
所以,我特別強調(diào),在通常企業(yè)數(shù)據(jù)監(jiān)控,顯示一大屏數(shù)據(jù)的界面上,對比特征要體現(xiàn),比如所有同比下降超過多少比例的一概紅色體現(xiàn),所有上升多少比例的一概綠色體現(xiàn),公司運營狀況一目了然。
細(xì)分,數(shù)據(jù)出現(xiàn)對比異常,你當(dāng)然想知道原因,那需要細(xì)分了。
細(xì)分先分緯度,再分粒度,什么是緯度?你按照時間去分,是時間緯度,按照地區(qū)去分,是地區(qū)緯度,按照來路去分,是來路緯度,按照受訪去分,是受訪緯度;你說網(wǎng)站訪問量漲了5%,咋回事不知道,你細(xì)分一看,大部分網(wǎng)頁都沒漲,某個頻道某個活動頁漲了300%,這清楚了,這是細(xì)分簡單的范例,其實很多領(lǐng)域都通用。 粒度是什么,你時間緯度,是按照天,還是按照小時?這是粒度差異,你來路緯度,是來路的網(wǎng)站,還是來路的url,這是粒度的差異;這樣可以將對比的差異值逐級鎖定,尋找原因。
溯源,有時候我對比,細(xì)分鎖定到具體緯度,具體粒度了,依然沒有結(jié)論,怎么辦,溯源,依據(jù)鎖定的這個緯度和粒度作為搜索條件,查詢所涉及的源日志,源記錄,然后基于此分析和反思用戶的行為,往往會有驚人的發(fā)現(xiàn),我們正是基于這一邏輯發(fā)現(xiàn)過產(chǎn)品的一些缺陷,而且你不斷通過這個方式分析數(shù)據(jù),對用戶行為的理解也會逐步加深。
小結(jié):
數(shù)據(jù)分析,是一條苦逼的路,但是數(shù)據(jù)驅(qū)動決策,卻是十分理性的選擇。當(dāng)然,在現(xiàn)實生活中,或許驅(qū)動你決策的,更多是信仰。
來自于:《seo科學(xué)之美》中的文章均系Rude原創(chuàng)
說明:如果您有任何疑問或想咨詢其他業(yè)務(wù)請撥打電話 400 685 0732