fyty8888@163.com

構建互聯網產品數據管理體系

作者:
安徽新天源建設咨詢有限公司
最后修訂:
2020-08-21 10:14:51

摘要:

產品數據管理是什么?


產品數據管理 (PDM)最早出現在20世紀80年代中期,過去產品設計、工藝設計、生產管理使用的圖紙、工藝、生產計劃、物資管理都是紙質文件,但一經計算機處理后,這些紙質文件都轉化成為計算機中各種不同類型格式的數據,因此出現了產品數字化的概念。這些數字化的產品數據管理稱為PDM(ProductData Management)。PDM以管理企業(yè)的產品數據為基礎,管理所有與產品相關的信息(包括電子文檔、數字化文件、數據庫記錄等)和所有與產品相關的過程(包括工作流程和更改流程),通過控制涉及這些信息的所有過程、管理協調與這些過程有關的所有機構和人員,保證設計人員在需要的時候都能夠訪問到正確的信息,并提高設計者之間及應用與應用之間的信息反饋速度,從而達到縮短產品的開發(fā)周期、降低成本、提高質量和改善產品性能的目的。


互聯網企業(yè)也有系統化的產品數據管理體系,由于大數據的發(fā)展,互聯網企業(yè)的產品數據管理體系相對于傳統企業(yè)的產品數據體系有著更顯著的差異和特色:


(1)由于產品功能多元化和產品更新迭代速度快,數據體系的構建更為復雜。


(2)可采集的數據更為全面和多樣化,數據對產品運營和優(yōu)化決策的作用更為顯著。


(3)對數據處理能力的要求更高,尤其是對海量數據處理的能力,數據計算的實時性方面要求更高。


(4)對數據分析和數據挖掘的深度要求更高,數據能夠為產品決策提供更多的支撐。


互聯網的產品數據管理應用概覽


互聯網的產品數據管理包括四大方面,具體包括:


(1)數據統計指標設計。互聯網產品數據體系的構建,從統計指標設計出發(fā),以結果導向來設計數據體系,以更好的進行產品開發(fā)和運營管理。


(2)數據上報采集。設計好數據體系后,我們需要和相關產品經理、產品開發(fā)人員規(guī)劃數據上報,確定通過技術手段采集那些數據。


(3)數據存儲、處理和統計。即對上報的數據進行加工和存儲,利用大數據技術進行數據統計和數據展現,方便查看和檢索。


(4)數據分析與挖掘。即對重要的產品設計和運營問題或者方向進行數據分析和挖掘,對重要的產品關鍵數據進行實時監(jiān)控和預警。


這四方面形成閉環(huán),不斷的循環(huán)改進。雖然互聯網產品的數據管理體系從數據統計指標體系出發(fā),而數據分析和數據挖掘是最后一步,但經過數據分析和數據挖掘,也會進一步促進數據統計指標的設計和優(yōu)化。


數據統計指標設計


衡量一個產品的好壞可以分為經營類指標、體驗設計類指標和性能質量類指標。不同產品定位和功能都有不同,因此無法完全統一指標來直接衡量各個產品的好壞。因此,不同產品的數據指標體系既有相同的方面,也有差異的方面。在下一篇文章,我們將分別詳細介紹電商、游戲和工具類產品應用的通用類數據指標體系。在差異化的方面,每個產品可以提煉出與自身產品定位和功能更有針對性的指標,如像微信,朋友圈的發(fā)圖片量一定是重要的但也比較特殊的活躍度指標。


在數據指標體系設計過程中,常常遇到以下問題:


(1)產品缺乏有效的數據監(jiān)控。產品越來越多,但對產品缺乏監(jiān)控與評估,各功能對用戶的需求與滿意度,貢獻度無定期反饋與評估機制。


(2)數據需求合理性問題。產品經理或運營人員提出的數據需求往往沒有經過專業(yè)數據分析師評估與評審,對數據指標的統計必要性、完備性和準確性缺乏評估。


(3)數據指標體系科學性問題?,F有的產品指標多數是是記錄部分原數據,對產品的衡量缺乏立體化維度,缺失部分關鍵指標。


為了解決這些問題,我們需要從以下四大方面解決:


(1)提煉關鍵產品關鍵價值指標。產品關鍵價值指標是每個業(yè)務(功能)綜合衡量指標,該指標包括財務類經濟收入指標和用戶活躍度的總體指標。常用指標如收入、日活躍用戶數和付費用戶數等。


(2)構建立體化的產品評估體系。我們需要對影響產品關鍵價值指標的相關影響因素進行詳盡分析,并構建立體化的指標體系進行監(jiān)控。比如影響日活躍用戶的相關指標,可能包括用戶參與度類指標、用戶留存類指標和產品性能類指標,這些指標都盡可能細化,并進行監(jiān)控。


(3)細分指標,有利與定位與發(fā)現問題,便于開展專項分析。我們需要對產品關鍵價值指標進行細分拆解,以方便定位產品關鍵價值指標異動原因。如對日活躍用戶的拆解,我們可以從不同版本角度進行拆解或者從產品不同功能模塊拆解,以方便發(fā)現日活躍用戶異動的原因。


(4)建立數據需求評審制度。定期如每周進行數據需求評審,數據需求提出方與分析師、數據開發(fā)人員共同討論,根據數據需求的背景和商業(yè)目標制定相應的數據指標體系,并確定數據的來源,如果沒有現成的數據源,還需要驅動開發(fā)進行數據上報。


數據上報采集


互聯網產品的數據采集需要通過開發(fā)人員寫程序或者使用已有的工具把相關的數據以日志的方式傳輸到數據上報的服務器,數據開發(fā)人員再對相關的日志進行日志解析、入庫,以方便數據統計。但很多產品經理或者運營人員以為數據不用上報就可以做數據統計,這是一個常見的誤區(qū),會經常導致產品上線后,關鍵的運營數據都不能看到。很多互聯網產品經理或者運營人員經常把數據上報和數據統計混淆,以為上報項就是統計項,或者以為提了數據上報需求就有統計結果,或者做數據上報的測試不做統計的測試。實際上,數據上報是數據采集的手段,上報是數據統計的數據來源之一。還有一種極端的方式是,產品經理或者運營人員為了上報數據而提上報數據需求,不管上報的數據是否有用,盡可能多的提,導致提了非常多沒有用的數據上報項,浪費公司開發(fā)資源,浪費數據存儲資源,浪費公司開發(fā)人力。


如何進行有效的數據上報?我們常??吹剑芏鄶祿蠄笮枨髮ι蠄髼l件與規(guī)則描述不太清楚,導致與數據上報的開發(fā)人員、測試人員的溝通中常出現理解不一致,常常導致返工等浪費人力情況。有效的數據上報需求說明應該包括以下要點:統計項名稱、統計目的、統計方式、上報項描述、業(yè)務邏輯及觸發(fā)時機。我們建議把此作為互聯網產品數據上報需求的模板,以規(guī)范數據上報需求。通過建立數據上報模版,幫助提高產品需求的質量,提高與開發(fā)測試方溝通的效率,節(jié)省溝通成本。以“發(fā)送圖片成功賬戶數”為例,數據上報內容如下:


統計項:發(fā)送圖片成功賬戶數。


統計目的:產品關鍵數據之一,衡量產品運營整體效果。


統計方式:日周期統計。


上報項描述:該用戶成功發(fā)送圖片的次數。


觸發(fā)條件/業(yè)務邏輯詳細描述:發(fā)送成功賬戶指自定義圖片由發(fā)送方計算機成功上傳到服務器,當天只要有一次發(fā)送成功則被記為成功賬戶。


數據存儲、處理和統計


數據上報到數據存儲服務器后,經數據開發(fā)人員數據處理后,便可以進行統計和數據展示。大數據存儲經常面臨存儲規(guī)模大和存儲管理復雜的挑戰(zhàn),需要兼顧結構化、非結構化和半結構化的數據。傳統數據庫對這類需求和應用無論在技術上還是功能上都不能很好的解決。我們可以利用分布式文件系統和分布式數據庫技術來解決這些問題。同時,大數據存儲還要考慮一個重要的問題,即數據的生命周期管理問題。數據有其生命周期,同時,數據存貯也有相應的成本。隨著數據量越來大,數據維護成本越來越高,數據使用效率也會逐漸降低。大數據管理里面經常面臨的問題是:什么樣的數據需要一直存儲,如果要存儲是在線存儲還是離線存儲,那些數據需要存儲一定時間后要進行刪除。因此,我們需要對數據的不同時效、不同訪問頻率、不同重要性進行區(qū)分,結合存儲成本的考慮,制定相應的存儲策略。如交易型數據其數據重要性高和訪問頻率高,可以采用在線存儲。


在數據處理和統計上,要重點解決以下問題:


(1)多樣化的數據處理?;ヂ摼W大數據的特點是要對不同數據結構特征的數據處理,即要對結構化/半結構化數據和非結構化的數據進行處理。


(2)數據實時性問題。從數據計算響應性能角度看,大數據處理可分為實時/準實時與非實時計算,流式計算通常屬于實時計算,查詢分析類計算通常也要求具有高響應性能,而批處理和復雜數據挖掘計算通常屬于非實時或線下計算,那些數據需要實時計算,那些數據需要離線計算,要提前評估和準備。


(3)數據關聯性問題。如MapReduce 適用于處理數據關系較為簡單的計算任務,但社會網在絡等具有復雜數據關系的計算任務則需要研究和使用圖數據計算模式。


(4)并行計算的體系和硬件平臺的搭建。大數據處理通常需要使用基于集群的分布式存儲與并行計算體系結構和硬件平臺,尤其是隨著很多需要高響應性能的大數據查詢分析計算問題的出現,MapReduce 其在計算性能上往往難以滿足要求,用內存計算完成高速的大數據處理已經成為大數據計算的一個重要發(fā)展趨勢。


數據分析和數據挖掘


數據分析和數據挖掘需要集成的、經過清洗的、可信的、可高效訪問的數據,通過大數據分析和挖掘,大數據的價值才可以更好的發(fā)揮出來。大數據環(huán)境下的分析和挖掘方法與傳統的小數據統計分析有很多不同,這些方向也是構建大數據能力和體系時需要解決的問題。大數據時代,數據分析和數據挖掘體系需要解決以下問題:


(1)大規(guī)模數據的處理和分析。大數據環(huán)境下的數據分析需要處理大規(guī)模的且數據量急速增長的數據。在這種情況下,我們可以采用抽樣的技術來把數據規(guī)模變小,以便利用已有的技術手段來進行數據分析。但在某些領域,抽樣會導致信息的丟失。所以,如何應對TB級別甚至更高量級數據量進行分析,是大數據分析相對于小數據分析的最大挑戰(zhàn)。


(2)數據分析的深度和廣度。一方面,由于大數據種類的多樣性,不僅僅包括結構化的數據,還包括半結構化、非結構化的數據,使得可以分析的維度變多,數據分析的廣度變得更寬,可以從更多的維度發(fā)現小數據所不能發(fā)現的洞察。第二方面,結合大數據的算法和更為復雜的統計分析模型,我們可以做更深度的分析,比如預測客戶流失的概率以及流失的原因,實時監(jiān)測和定位數據異動的原因等。因此,相對于小數據,大數據在數據分析的深度和廣度都有更為明顯的優(yōu)勢,從數據更好的發(fā)現知識并加以利用進而指導人們的決策。


(3)數據分析和數據挖掘的實時性。在大數據時代,數據分析越快、越及時,對商業(yè)價值的貢獻則越大,查詢和分析的實時處理能力,對于人們及時獲得決策信息,做出有效反應是非常關鍵的前提。如根據用戶最近購買行為、瀏覽行為通過大數據技術來及時的“猜測”用戶的潛在需求,推薦用戶最想購買的商品,并推送有有效的促銷信息促成用戶購買。這個猜測和推薦的過程越快效果越好。但是,在面對大數據,數據分析和數據挖掘的實時性成為大數據應用最大的挑戰(zhàn)。因此,構建實時計算能力如利用spark、storm等實時計算技術成為提升數據分析實時性的關鍵。


(4)數據分析的自動化和可視化結合。在大數據時代,我們需要利用大數據技術實現分析的自動化,讓機器能做的事情充分的讓機器來完成。要實現“機器”自動化的數據分析,前提是讓“人”提前設置好數據分析的模式。這樣,人可以把更多的分析經驗和思路沉淀為分析模式,讓機器不斷的利用分析模式來及時的、自動化的計算,從而使得數據分析可以更好的提高效率。同時,如果我們還可以利用大數據可視化的手段把復雜的計算結果用簡單易用的可視化數據產品展示出來,將有利于“大數據用戶”更好的理解數據分析的結果,更好運用數據來做更多有效的決策??傊?,大數據可視化與大數據分析自動化的結合,一方面由于機器的自動化計算提高了分析效率,另一方面,由于可視化提供了用戶對數據的直觀分析和展示,提升了數據的易用性。如果還可能,大數據可視化可以進一步結合人機交互,將能帶來更好的分析效果。大數據可視化方面結合人機交互的功能,本質上是提供了人和數據的“對話”功能,可以更好的探索數據中的隱含信息,進行更好的推理,獲得更深入的洞察。


總之,互聯網產品的數據管理體系需要產品經理、產品運營人員、開發(fā)人員和數據分析師共同合作完成,并不是數據分析師或者是產品經理一個人就能完成的事情。為了更好的建設符合大數據時代的產品運營的數據體系,我們需要充分理解數據體系的商業(yè)目標,做出科學嚴謹的產品數據體系,做好數據上報的規(guī)范,構建大數據存儲和計算的能力,做好數據的生命周期管理,搭建具有大數據技術能力的數據分析和數據挖掘體系,并在這些基礎上形成數據體系設計、數據上報采集、數據存儲計算和數據分析挖掘的良性循環(huán)。