如果在大數(shù)據(jù)時代進(jìn)行完美的網(wǎng)絡(luò)數(shù)據(jù)分析
2016-12-12閱讀量:
1、多來源地收集數(shù)據(jù);
2、對數(shù)據(jù)做初步的清洗整理;
3、著重注意一些可能會造成偏差的數(shù)據(jù)類型。
一、數(shù)據(jù)的來源
多來源地收集數(shù)據(jù)是盡可能地保證數(shù)據(jù)的全面性,從而能從更多角度地分析問題。一般來說,數(shù)據(jù)的來源類型主要有點(diǎn)擊流數(shù)據(jù)、業(yè)務(wù)運(yùn)營數(shù)據(jù)、實(shí)驗(yàn)測試數(shù)據(jù)、用戶調(diào)研數(shù)據(jù)、行業(yè)發(fā)展數(shù)據(jù)、競爭對手?jǐn)?shù)據(jù)。1)點(diǎn)擊流數(shù)據(jù)
點(diǎn)擊流數(shù)據(jù)主要是解釋 “What” 的問題。一般有以下幾種收集方式。1.通過網(wǎng)站日志的形式獲取得到;
2.通過百度統(tǒng)計等第三方工具獲??;
3.通過對網(wǎng)站埋點(diǎn)的方式獲取;
例如:訪問數(shù)、頁面瀏覽數(shù)、停留時長等都屬于點(diǎn)擊流數(shù)據(jù)。
2)業(yè)務(wù)運(yùn)營數(shù)據(jù)
業(yè)務(wù)運(yùn)營數(shù)據(jù)主要解釋”How much”的問題。主要是一些存放在前臺數(shù)據(jù)庫的數(shù)據(jù),這些數(shù)據(jù)可以直接衡量網(wǎng)站的績效和目標(biāo)。一般可通過查詢后臺數(shù)據(jù)獲取。例如:銷售額、訂單量、購買用戶數(shù)等指標(biāo)。3)實(shí)驗(yàn)測試數(shù)據(jù)
實(shí)驗(yàn)數(shù)據(jù)主要解釋“Which”的問題。實(shí)驗(yàn)測試數(shù)據(jù)一般都是臨時采集的,功能是為了某些專題的分析,比如網(wǎng)站改版、用戶體驗(yàn)的優(yōu)化等。網(wǎng)站分析中最常見的實(shí)驗(yàn)測試就是A/B測試,即從兩個方案中選擇更優(yōu)的方案。4)用戶調(diào)研數(shù)據(jù)
用戶調(diào)研數(shù)據(jù)功能主要是去找到“Why”的結(jié)果。直接詢問用戶無疑是最有效的,最常見的用戶調(diào)研方式是問卷調(diào)查,讓用戶直接回答問題來解釋問題的原因。當(dāng)然,用戶調(diào)研屬于典型的定性分析,如果結(jié)合定量分析一起進(jìn)行會更準(zhǔn)確。5)行業(yè)發(fā)展數(shù)據(jù)
行業(yè)發(fā)展數(shù)據(jù)與自身的數(shù)掘進(jìn)行比較,往往可以看到自身存在的不足。很多第三方咨詢分析機(jī)構(gòu)會定期出一些行業(yè)的數(shù)據(jù)報告,可以從這些報告中發(fā)掘一些有用的行業(yè)信息。6)競爭對手?jǐn)?shù)據(jù)
與行業(yè)數(shù)據(jù)一樣,對競爭對手的分析也是發(fā)現(xiàn)自身優(yōu)劣勢的最好方法。而且網(wǎng)站本身為了讓用戶了解到一些信息也會展現(xiàn)一些數(shù)據(jù),而這些數(shù)據(jù)也是分析競爭對手的一種途徑。二、對數(shù)據(jù)的初步清洗與整理
數(shù)據(jù)的清洗與整理是為了保證數(shù)據(jù)的完整性、一致性和準(zhǔn)確性。1)數(shù)據(jù)的完整性
保證數(shù)據(jù)的完整性就需要盡量減少數(shù)據(jù)源的缺失值對數(shù)據(jù)分析帶來的影響。為了之后的統(tǒng)計和分析的需要,一般通過均值、中位數(shù)、眾數(shù),或者根據(jù)指標(biāo)的變化趨勢使用回歸分析進(jìn)行擬合后算出預(yù)測值,如果與其他的指標(biāo)存在相關(guān)性,也可以結(jié)合其他的指標(biāo)進(jìn)行估算。2)數(shù)據(jù)的一致性
要保證數(shù)據(jù)的一致性,就要保證整個數(shù)據(jù)采集階段的描述一致性、記錄一致性、既定的規(guī)則一致性。1、描述的一致性:比如省份的細(xì)分?jǐn)?shù)據(jù),一個數(shù)據(jù)源記錄的是“京”,另外一個是“北京市”;這時候可以通過觀察省份字段的所有唯一值排序的結(jié)果,這樣類似的不一致的描述就會一目了然。
2、記錄一致性:記錄一致性一般是由于數(shù)據(jù)的重復(fù)錄入,如果發(fā)生在數(shù)據(jù)庫中,我們則可以使用主鍵約束或者唯一約束去避免類似情況的發(fā)生。
3、既定的規(guī)則一致性:這個要求采集到的數(shù)據(jù)在總體和細(xì)分上保持一致,如果不一致,很有可能就是數(shù)據(jù)模型的設(shè)計或者維表的結(jié)構(gòu)存在問題。當(dāng)然,也可能是某些指標(biāo)的定義和計算規(guī)則沒有統(tǒng)一。