構建互聯(lián)網(wǎng)產(chǎn)品數(shù)據(jù)管理體系

作者：: 安徽新天源建設咨詢有限公司
最后修訂：: 2020-08-21 10:14:51

摘要：

產(chǎn)品數(shù)據(jù)管理是什么？

產(chǎn)品數(shù)據(jù)管理（PDM）最早出現(xiàn)在20世紀80年代中期，過去產(chǎn)品設計、工藝設計、生產(chǎn)管理使用的圖紙、工藝、生產(chǎn)計劃、物資管理都是紙質(zhì)文件，但一經(jīng)計算機處理后，這些紙質(zhì)文件都轉(zhuǎn)化成為計算機中各種不同類型格式的數(shù)據(jù)，因此出現(xiàn)了產(chǎn)品數(shù)字化的概念。這些數(shù)字化的產(chǎn)品數(shù)據(jù)管理稱為PDM（ProductData Management）。PDM以管理企業(yè)的產(chǎn)品數(shù)據(jù)為基礎，管理所有與產(chǎn)品相關的信息（包括電子文檔、數(shù)字化文件、數(shù)據(jù)庫記錄等）和所有與產(chǎn)品相關的過程（包括工作流程和更改流程），通過控制涉及這些信息的所有過程、管理協(xié)調(diào)與這些過程有關的所有機構和人員，保證設計人員在需要的時候都能夠訪問到正確的信息，并提高設計者之間及應用與應用之間的信息反饋速度，從而達到縮短產(chǎn)品的開發(fā)周期、降低成本、提高質(zhì)量和改善產(chǎn)品性能的目的。

互聯(lián)網(wǎng)企業(yè)也有系統(tǒng)化的產(chǎn)品數(shù)據(jù)管理體系，由于大數(shù)據(jù)的發(fā)展，互聯(lián)網(wǎng)企業(yè)的產(chǎn)品數(shù)據(jù)管理體系相對于傳統(tǒng)企業(yè)的產(chǎn)品數(shù)據(jù)體系有著更顯著的差異和特色：

（1）由于產(chǎn)品功能多元化和產(chǎn)品更新迭代速度快，數(shù)據(jù)體系的構建更為復雜。

（2）可采集的數(shù)據(jù)更為全面和多樣化，數(shù)據(jù)對產(chǎn)品運營和優(yōu)化決策的作用更為顯著。

（3）對數(shù)據(jù)處理能力的要求更高，尤其是對海量數(shù)據(jù)處理的能力，數(shù)據(jù)計算的實時性方面要求更高。

（4）對數(shù)據(jù)分析和數(shù)據(jù)挖掘的深度要求更高，數(shù)據(jù)能夠為產(chǎn)品決策提供更多的支撐。

互聯(lián)網(wǎng)的產(chǎn)品數(shù)據(jù)管理應用概覽

互聯(lián)網(wǎng)的產(chǎn)品數(shù)據(jù)管理包括四大方面，具體包括：

（1）數(shù)據(jù)統(tǒng)計指標設計。互聯(lián)網(wǎng)產(chǎn)品數(shù)據(jù)體系的構建，從統(tǒng)計指標設計出發(fā)，以結果導向來設計數(shù)據(jù)體系，以更好的進行產(chǎn)品開發(fā)和運營管理。

（2）數(shù)據(jù)上報采集。設計好數(shù)據(jù)體系后，我們需要和相關產(chǎn)品經(jīng)理、產(chǎn)品開發(fā)人員規(guī)劃數(shù)據(jù)上報，確定通過技術手段采集那些數(shù)據(jù)。

（3）數(shù)據(jù)存儲、處理和統(tǒng)計。即對上報的數(shù)據(jù)進行加工和存儲，利用大數(shù)據(jù)技術進行數(shù)據(jù)統(tǒng)計和數(shù)據(jù)展現(xiàn)，方便查看和檢索。

（4）數(shù)據(jù)分析與挖掘。即對重要的產(chǎn)品設計和運營問題或者方向進行數(shù)據(jù)分析和挖掘，對重要的產(chǎn)品關鍵數(shù)據(jù)進行實時監(jiān)控和預警。

這四方面形成閉環(huán)，不斷的循環(huán)改進。雖然互聯(lián)網(wǎng)產(chǎn)品的數(shù)據(jù)管理體系從數(shù)據(jù)統(tǒng)計指標體系出發(fā)，而數(shù)據(jù)分析和數(shù)據(jù)挖掘是最后一步，但經(jīng)過數(shù)據(jù)分析和數(shù)據(jù)挖掘，也會進一步促進數(shù)據(jù)統(tǒng)計指標的設計和優(yōu)化。

數(shù)據(jù)統(tǒng)計指標設計

衡量一個產(chǎn)品的好壞可以分為經(jīng)營類指標、體驗設計類指標和性能質(zhì)量類指標。不同產(chǎn)品定位和功能都有不同，因此無法完全統(tǒng)一指標來直接衡量各個產(chǎn)品的好壞。因此，不同產(chǎn)品的數(shù)據(jù)指標體系既有相同的方面，也有差異的方面。在下一篇文章，我們將分別詳細介紹電商、游戲和工具類產(chǎn)品應用的通用類數(shù)據(jù)指標體系。在差異化的方面，每個產(chǎn)品可以提煉出與自身產(chǎn)品定位和功能更有針對性的指標，如像微信，朋友圈的發(fā)圖片量一定是重要的但也比較特殊的活躍度指標。

在數(shù)據(jù)指標體系設計過程中，常常遇到以下問題：

（1）產(chǎn)品缺乏有效的數(shù)據(jù)監(jiān)控。產(chǎn)品越來越多，但對產(chǎn)品缺乏監(jiān)控與評估，各功能對用戶的需求與滿意度，貢獻度無定期反饋與評估機制。

（2）數(shù)據(jù)需求合理性問題。產(chǎn)品經(jīng)理或運營人員提出的數(shù)據(jù)需求往往沒有經(jīng)過專業(yè)數(shù)據(jù)分析師評估與評審，對數(shù)據(jù)指標的統(tǒng)計必要性、完備性和準確性缺乏評估。

（3）數(shù)據(jù)指標體系科學性問題?，F(xiàn)有的產(chǎn)品指標多數(shù)是是記錄部分原數(shù)據(jù)，對產(chǎn)品的衡量缺乏立體化維度，缺失部分關鍵指標。

為了解決這些問題，我們需要從以下四大方面解決：

（1）提煉關鍵產(chǎn)品關鍵價值指標。產(chǎn)品關鍵價值指標是每個業(yè)務（功能）綜合衡量指標，該指標包括財務類經(jīng)濟收入指標和用戶活躍度的總體指標。常用指標如收入、日活躍用戶數(shù)和付費用戶數(shù)等。

（2）構建立體化的產(chǎn)品評估體系。我們需要對影響產(chǎn)品關鍵價值指標的相關影響因素進行詳盡分析，并構建立體化的指標體系進行監(jiān)控。比如影響日活躍用戶的相關指標，可能包括用戶參與度類指標、用戶留存類指標和產(chǎn)品性能類指標，這些指標都盡可能細化，并進行監(jiān)控。

（3）細分指標，有利與定位與發(fā)現(xiàn)問題，便于開展專項分析。我們需要對產(chǎn)品關鍵價值指標進行細分拆解，以方便定位產(chǎn)品關鍵價值指標異動原因。如對日活躍用戶的拆解，我們可以從不同版本角度進行拆解或者從產(chǎn)品不同功能模塊拆解，以方便發(fā)現(xiàn)日活躍用戶異動的原因。

（4）建立數(shù)據(jù)需求評審制度。定期如每周進行數(shù)據(jù)需求評審，數(shù)據(jù)需求提出方與分析師、數(shù)據(jù)開發(fā)人員共同討論，根據(jù)數(shù)據(jù)需求的背景和商業(yè)目標制定相應的數(shù)據(jù)指標體系，并確定數(shù)據(jù)的來源，如果沒有現(xiàn)成的數(shù)據(jù)源，還需要驅(qū)動開發(fā)進行數(shù)據(jù)上報。

數(shù)據(jù)上報采集

互聯(lián)網(wǎng)產(chǎn)品的數(shù)據(jù)采集需要通過開發(fā)人員寫程序或者使用已有的工具把相關的數(shù)據(jù)以日志的方式傳輸?shù)綌?shù)據(jù)上報的服務器，數(shù)據(jù)開發(fā)人員再對相關的日志進行日志解析、入庫，以方便數(shù)據(jù)統(tǒng)計。但很多產(chǎn)品經(jīng)理或者運營人員以為數(shù)據(jù)不用上報就可以做數(shù)據(jù)統(tǒng)計，這是一個常見的誤區(qū)，會經(jīng)常導致產(chǎn)品上線后，關鍵的運營數(shù)據(jù)都不能看到。很多互聯(lián)網(wǎng)產(chǎn)品經(jīng)理或者運營人員經(jīng)常把數(shù)據(jù)上報和數(shù)據(jù)統(tǒng)計混淆，以為上報項就是統(tǒng)計項，或者以為提了數(shù)據(jù)上報需求就有統(tǒng)計結果，或者做數(shù)據(jù)上報的測試不做統(tǒng)計的測試。實際上，數(shù)據(jù)上報是數(shù)據(jù)采集的手段，上報是數(shù)據(jù)統(tǒng)計的數(shù)據(jù)來源之一。還有一種極端的方式是，產(chǎn)品經(jīng)理或者運營人員為了上報數(shù)據(jù)而提上報數(shù)據(jù)需求，不管上報的數(shù)據(jù)是否有用，盡可能多的提，導致提了非常多沒有用的數(shù)據(jù)上報項，浪費公司開發(fā)資源，浪費數(shù)據(jù)存儲資源，浪費公司開發(fā)人力。

如何進行有效的數(shù)據(jù)上報？我們常?？吹?，很多數(shù)據(jù)上報需求對上報條件與規(guī)則描述不太清楚，導致與數(shù)據(jù)上報的開發(fā)人員、測試人員的溝通中常出現(xiàn)理解不一致，常常導致返工等浪費人力情況。有效的數(shù)據(jù)上報需求說明應該包括以下要點：統(tǒng)計項名稱、統(tǒng)計目的、統(tǒng)計方式、上報項描述、業(yè)務邏輯及觸發(fā)時機。我們建議把此作為互聯(lián)網(wǎng)產(chǎn)品數(shù)據(jù)上報需求的模板，以規(guī)范數(shù)據(jù)上報需求。通過建立數(shù)據(jù)上報模版，幫助提高產(chǎn)品需求的質(zhì)量，提高與開發(fā)測試方溝通的效率，節(jié)省溝通成本。以“發(fā)送圖片成功賬戶數(shù)”為例，數(shù)據(jù)上報內(nèi)容如下：

統(tǒng)計項：發(fā)送圖片成功賬戶數(shù)。

統(tǒng)計目的：產(chǎn)品關鍵數(shù)據(jù)之一，衡量產(chǎn)品運營整體效果。

統(tǒng)計方式：日周期統(tǒng)計。

上報項描述：該用戶成功發(fā)送圖片的次數(shù)。

觸發(fā)條件/業(yè)務邏輯詳細描述：發(fā)送成功賬戶指自定義圖片由發(fā)送方計算機成功上傳到服務器，當天只要有一次發(fā)送成功則被記為成功賬戶。

數(shù)據(jù)存儲、處理和統(tǒng)計

數(shù)據(jù)上報到數(shù)據(jù)存儲服務器后，經(jīng)數(shù)據(jù)開發(fā)人員數(shù)據(jù)處理后，便可以進行統(tǒng)計和數(shù)據(jù)展示。大數(shù)據(jù)存儲經(jīng)常面臨存儲規(guī)模大和存儲管理復雜的挑戰(zhàn)，需要兼顧結構化、非結構化和半結構化的數(shù)據(jù)。傳統(tǒng)數(shù)據(jù)庫對這類需求和應用無論在技術上還是功能上都不能很好的解決。我們可以利用分布式文件系統(tǒng)和分布式數(shù)據(jù)庫技術來解決這些問題。同時，大數(shù)據(jù)存儲還要考慮一個重要的問題，即數(shù)據(jù)的生命周期管理問題。數(shù)據(jù)有其生命周期，同時，數(shù)據(jù)存貯也有相應的成本。隨著數(shù)據(jù)量越來大，數(shù)據(jù)維護成本越來越高，數(shù)據(jù)使用效率也會逐漸降低。大數(shù)據(jù)管理里面經(jīng)常面臨的問題是：什么樣的數(shù)據(jù)需要一直存儲，如果要存儲是在線存儲還是離線存儲，那些數(shù)據(jù)需要存儲一定時間后要進行刪除。因此，我們需要對數(shù)據(jù)的不同時效、不同訪問頻率、不同重要性進行區(qū)分，結合存儲成本的考慮，制定相應的存儲策略。如交易型數(shù)據(jù)其數(shù)據(jù)重要性高和訪問頻率高，可以采用在線存儲。

在數(shù)據(jù)處理和統(tǒng)計上，要重點解決以下問題：

（1）多樣化的數(shù)據(jù)處理?；ヂ?lián)網(wǎng)大數(shù)據(jù)的特點是要對不同數(shù)據(jù)結構特征的數(shù)據(jù)處理，即要對結構化/半結構化數(shù)據(jù)和非結構化的數(shù)據(jù)進行處理。

（2）數(shù)據(jù)實時性問題。從數(shù)據(jù)計算響應性能角度看，大數(shù)據(jù)處理可分為實時/準實時與非實時計算，流式計算通常屬于實時計算，查詢分析類計算通常也要求具有高響應性能，而批處理和復雜數(shù)據(jù)挖掘計算通常屬于非實時或線下計算，那些數(shù)據(jù)需要實時計算，那些數(shù)據(jù)需要離線計算，要提前評估和準備。

（3）數(shù)據(jù)關聯(lián)性問題。如MapReduce 適用于處理數(shù)據(jù)關系較為簡單的計算任務，但社會網(wǎng)在絡等具有復雜數(shù)據(jù)關系的計算任務則需要研究和使用圖數(shù)據(jù)計算模式。

（4）并行計算的體系和硬件平臺的搭建。大數(shù)據(jù)處理通常需要使用基于集群的分布式存儲與并行計算體系結構和硬件平臺，尤其是隨著很多需要高響應性能的大數(shù)據(jù)查詢分析計算問題的出現(xiàn)，MapReduce 其在計算性能上往往難以滿足要求，用內(nèi)存計算完成高速的大數(shù)據(jù)處理已經(jīng)成為大數(shù)據(jù)計算的一個重要發(fā)展趨勢。

數(shù)據(jù)分析和數(shù)據(jù)挖掘

數(shù)據(jù)分析和數(shù)據(jù)挖掘需要集成的、經(jīng)過清洗的、可信的、可高效訪問的數(shù)據(jù)，通過大數(shù)據(jù)分析和挖掘，大數(shù)據(jù)的價值才可以更好的發(fā)揮出來。大數(shù)據(jù)環(huán)境下的分析和挖掘方法與傳統(tǒng)的小數(shù)據(jù)統(tǒng)計分析有很多不同，這些方向也是構建大數(shù)據(jù)能力和體系時需要解決的問題。大數(shù)據(jù)時代，數(shù)據(jù)分析和數(shù)據(jù)挖掘體系需要解決以下問題：

（1）大規(guī)模數(shù)據(jù)的處理和分析。大數(shù)據(jù)環(huán)境下的數(shù)據(jù)分析需要處理大規(guī)模的且數(shù)據(jù)量急速增長的數(shù)據(jù)。在這種情況下，我們可以采用抽樣的技術來把數(shù)據(jù)規(guī)模變小，以便利用已有的技術手段來進行數(shù)據(jù)分析。但在某些領域，抽樣會導致信息的丟失。所以，如何應對TB級別甚至更高量級數(shù)據(jù)量進行分析，是大數(shù)據(jù)分析相對于小數(shù)據(jù)分析的最大挑戰(zhàn)。

（2）數(shù)據(jù)分析的深度和廣度。一方面，由于大數(shù)據(jù)種類的多樣性，不僅僅包括結構化的數(shù)據(jù)，還包括半結構化、非結構化的數(shù)據(jù)，使得可以分析的維度變多，數(shù)據(jù)分析的廣度變得更寬，可以從更多的維度發(fā)現(xiàn)小數(shù)據(jù)所不能發(fā)現(xiàn)的洞察。第二方面，結合大數(shù)據(jù)的算法和更為復雜的統(tǒng)計分析模型，我們可以做更深度的分析，比如預測客戶流失的概率以及流失的原因，實時監(jiān)測和定位數(shù)據(jù)異動的原因等。因此，相對于小數(shù)據(jù)，大數(shù)據(jù)在數(shù)據(jù)分析的深度和廣度都有更為明顯的優(yōu)勢，從數(shù)據(jù)更好的發(fā)現(xiàn)知識并加以利用進而指導人們的決策。

（3）數(shù)據(jù)分析和數(shù)據(jù)挖掘的實時性。在大數(shù)據(jù)時代，數(shù)據(jù)分析越快、越及時，對商業(yè)價值的貢獻則越大，查詢和分析的實時處理能力，對于人們及時獲得決策信息，做出有效反應是非常關鍵的前提。如根據(jù)用戶最近購買行為、瀏覽行為通過大數(shù)據(jù)技術來及時的“猜測”用戶的潛在需求，推薦用戶最想購買的商品，并推送有有效的促銷信息促成用戶購買。這個猜測和推薦的過程越快效果越好。但是，在面對大數(shù)據(jù)，數(shù)據(jù)分析和數(shù)據(jù)挖掘的實時性成為大數(shù)據(jù)應用最大的挑戰(zhàn)。因此，構建實時計算能力如利用spark、storm等實時計算技術成為提升數(shù)據(jù)分析實時性的關鍵。

（4）數(shù)據(jù)分析的自動化和可視化結合。在大數(shù)據(jù)時代，我們需要利用大數(shù)據(jù)技術實現(xiàn)分析的自動化，讓機器能做的事情充分的讓機器來完成。要實現(xiàn)“機器”自動化的數(shù)據(jù)分析，前提是讓“人”提前設置好數(shù)據(jù)分析的模式。這樣，人可以把更多的分析經(jīng)驗和思路沉淀為分析模式，讓機器不斷的利用分析模式來及時的、自動化的計算，從而使得數(shù)據(jù)分析可以更好的提高效率。同時，如果我們還可以利用大數(shù)據(jù)可視化的手段把復雜的計算結果用簡單易用的可視化數(shù)據(jù)產(chǎn)品展示出來，將有利于“大數(shù)據(jù)用戶”更好的理解數(shù)據(jù)分析的結果，更好運用數(shù)據(jù)來做更多有效的決策?？傊?，大數(shù)據(jù)可視化與大數(shù)據(jù)分析自動化的結合，一方面由于機器的自動化計算提高了分析效率，另一方面，由于可視化提供了用戶對數(shù)據(jù)的直觀分析和展示，提升了數(shù)據(jù)的易用性。如果還可能，大數(shù)據(jù)可視化可以進一步結合人機交互，將能帶來更好的分析效果。大數(shù)據(jù)可視化方面結合人機交互的功能，本質(zhì)上是提供了人和數(shù)據(jù)的“對話”功能，可以更好的探索數(shù)據(jù)中的隱含信息，進行更好的推理，獲得更深入的洞察。

總之，互聯(lián)網(wǎng)產(chǎn)品的數(shù)據(jù)管理體系需要產(chǎn)品經(jīng)理、產(chǎn)品運營人員、開發(fā)人員和數(shù)據(jù)分析師共同合作完成，并不是數(shù)據(jù)分析師或者是產(chǎn)品經(jīng)理一個人就能完成的事情。為了更好的建設符合大數(shù)據(jù)時代的產(chǎn)品運營的數(shù)據(jù)體系，我們需要充分理解數(shù)據(jù)體系的商業(yè)目標，做出科學嚴謹?shù)漠a(chǎn)品數(shù)據(jù)體系，做好數(shù)據(jù)上報的規(guī)范，構建大數(shù)據(jù)存儲和計算的能力，做好數(shù)據(jù)的生命周期管理，搭建具有大數(shù)據(jù)技術能力的數(shù)據(jù)分析和數(shù)據(jù)挖掘體系，并在這些基礎上形成數(shù)據(jù)體系設計、數(shù)據(jù)上報采集、數(shù)據(jù)存儲計算和數(shù)據(jù)分析挖掘的良性循環(huán)。