1. <bdo id="md19b"><dfn id="md19b"></dfn></bdo>
      1. <bdo id="md19b"><optgroup id="md19b"></optgroup></bdo>
        1. <tbody id="md19b"></tbody>

              <track id="md19b"></track>

              <menuitem id="md19b"><dfn id="md19b"></dfn></menuitem>

              <track id="md19b"></track>

                鄭州市中之易科技有限公司
                聯系我們
                大數據智能分析專家 讓辦案 更高效。

                數據分析前的量化工作

                2022-04-07 19:10:08   來源:
                數據采集、特征提取、數據標準化、數據清洗和數據預處理,這些是常規數據分析前的工作。

                如果講到數據分析前有哪些事是需要我們做的,那么有幾個關鍵詞:數據采集、特征提取、數據標準化、數據清洗和數據預處理,這些是常規數據分析前的工作。

                那么再來看一下常規數據分析的流程,首先我們會有個需求,中間通過一些階段,到達數據預處理。通常做數據分析的人員是從這一步開始,拿到數據開始預處理以及數據分析、建模、結果可視化或者是產品的輸出。今天我想跟大家分享的是,中間通過的這些階段,有了需求之后,到數據采集這個階段,中間還需要利用數據分析方法做的事,包括數據采集中一部分量化的事情,也就是采集前,我們需要量化好后,才能做采集。

                首先,需求理解與溝通

                我們拿到了需求,這個需求可能是從客戶那溝通來的,也可能是領導給我們講的一句話,講的過程當中,不同的人,溝通表達的復雜程度完全不同,有些人條理非常清楚、需求羅列,有的人講的天花亂墜,最后說我的需求就這樣,你們自己看著辦,非常的發散和開放。

                那么這個時候,他的主題可能總結就一句話,我們第一步就是要細化研究類工作。我給大家舉個例子:我們早上都在食堂吃過早餐,吃雞蛋的時候大家可能發現,有的雞蛋殼容易剝,甚至直接吹就能吹下來,有的雞蛋殼非常難剝,如果領導問你,利用數據分析,說一下這個問題,你會從哪里入手。

                拿到這樣一個生活場景里非常小的問題:熟雞蛋為什么有些難剝有些容易剝?如果你拿到這個問題,你的第一反應是不是,我要數據。然后領導就說你可以回去了。這個數據,是要我們自己設計實現去收集的。

                我們常規的數據分析的人員習慣別人提供整理好的數據進行分析,但數據怎么收集,收集哪些數據,通常也是數據分析的工作。

                再看第二個例子:基本每一年,媒體都會發布這樣的消息,高考后的家庭,離婚率會增加,民政局就很想辟謠這個事情,如果讓我們來做,我們可以怎么做。

                看第三個例子:很長時間在知乎上特別火的帖子,男女之間有沒有純潔的友誼。

                拿到這個需求,作為數據分析人員,第一步,拆解多個子話題(子需求),子需求的拆解并不是憑空想象的,聽到這個話題的時候,有多個結論,比如說,知乎上就有幾個點贊率非常高的結論,第一個就是,男女之間有純潔的友誼,越丑越純;還有人說,等到結婚后就有純潔的友誼了。因為我們研究的精力有限,我們需要把大的話題拆分成多個,從多個中先選一到兩個進行研究。所以我們拆分:是不是所有的男女之間都有純潔的友誼,還是有些人有、有些人沒有;越丑越純——友誼跟顏值有沒有關系,有什么關系,顏值在其中起到多大作用;結婚(更年期)之后才純潔——友誼跟年齡有沒有關系;純潔的純度有多高;純潔的純度會不會有變化。這些都是經過細化后的子研究內容,然后再去選取內容,收集數據。

                第二步,有了研究內容后,我們需要對概念進行操作化。

                可能大家沒有聽說過這些,但我們肯定聽過另外一個名詞——抽象化或者叫做概念化,把抽象化的過程反過來,叫做操作化。

                以雞蛋難剝這個事情為例,可以操作化拆成兩個,雞蛋的完整度和剝殼的時間,雞蛋的完整度是測量剝完雞蛋后還剩下多少。通過概念操作化,我們實現了把宏觀概念轉化成可測量的微觀概念,有了微觀概念,下一步,如何測量。剝殼時間直接用表就可以測,那么完整度怎么測呢?剝完之后,雞蛋的表面可能是坑坑洼洼的,也可能掉了一半等等情況,概念操作化有一套嚴謹的方法論。抽象化的過程往往不同人做出來的結果是不一樣的,重復性比較差,但是操作化,不同人來做,往往重復性非常高,因為遵循了一套理論——概念界定、概念分類、設計自然指標。

                經過操作化之后,我們要設計指標以及測量工具。

                再來說男女之間純潔友誼的話題,我們界定一個指標叫做友誼的純潔度,這個指標也不是一兩句話就可以把握的,所以我們要設計一個專門的測量工具。有人可能會說,我做數據分析的,這些推給產品經理做就可以了,通常也確實這么做的,但是掌握數據分析方法分析出來的數據和沒有掌握方法出來的數據,往往有很大不同,有著可以落地和不可以落地的差別。

                有了測量工具后,接下來需要檢驗:有效度、難易程度(針對不同人群)、信度、敏感度。

                可以利用數據分析方法:項目分析、探索性因子分析、驗證性因子分析,聚類分析、IRT等等對測量工具進行驗證。如果測量工具無效的話,那么后續都不會有效,所以測量工具的非常重要,這些驗證需要兩年或者更久的時間,最終得到精簡有效的測量工具。當然現在已經有一些成熟的測量工具驗證量表了,同樣,這些量表在心理學中應用非常廣泛。

                那么,測量工具檢驗完,是不是就開始數據收集呢?不是的。

                下一步需要進行理論模型設計

                在做大數據的時候,包括數據挖掘等相關分析,方法都是涉及一個輸入層一個輸出層,這是個常規的模型,但是在實際問題中,很多模型都不是這樣的,比如貝葉斯模型,我們研究人員肯定不會設計出這些東西,可能貝葉斯、馬爾科夫這些都沒有聽說過,只有懂數據分析方法的人,了解這些方法,根據我們的業務,涉及多少關系,關系是單向還是雙向的,等等,這樣的圖首先是懂數據分析方法的研究人員設計出來,接下來才會進入到數據收集階段。

                數據收集可以在網上爬蟲、直接從數據庫導入數據、線下采集等途徑。

                這里還要提及抽樣方法,抽樣的方法有很多種,通過不同理論模型選取不同的抽樣方法。舉一個案例:北方到冬天會有暖氣,采暖就會產生空氣污染,那么暖氣對人的壽命會不會產生影響呢?

                我們如何用數據分析的方法驗證這個事情,數據我們要怎么取呢?我們常規的思路是在北方和南方各找一些人,看看暖氣對壽命會不會產生影響。

                但是這里涉及因果關系的驗證,因果關系在關系中有三個前提,第一個是,兩個事件必須相關;第二個是,原因事件必須發生在結果事件之前;第三個就是,需要控制住干擾因素。

                這個案例,有學者在常規方法基礎上提出改進和創新,叫做斷點回歸。他不是在北方和南方去抽,他在中國的南北分界線的地方抽取,我們知道,壽命跟很多因素有關系,選擇淮河兩岸的人員,可以有效保證他們生活的環境等因素大致相同,然后他得到結論,有暖氣會讓人的壽命減少5.5年。上不上一本對未來發展有沒有影響,影響有多大?學者選取某省一本線的曲線,上下加減5分,在這個10分帶中,人的未來發展差別。同樣,這個案例也是利用斷點回歸的方法。在現實其他場景中,人們一般會考慮多個因素,那么涉及多個因素的所有人群是不是都要包含呢?其實不是,日本統計學家發明一種正交設計方法,挑取特定的覆蓋特征數據進行采集。

                接下來,數據二次抽樣。

                吉野家在做各種促銷活動,有次對營銷平臺進行改進,實驗組,把展示圖片換成性感女模特的照片,配上宣傳文稿;對照組就用普通的圖片配上文字。得到促銷結果令人十分意外,實驗組促銷比對照組要低得多,找原因,利用二次抽樣,二次抽樣的方法有PSM模型,這個方法使對照組和實驗組數據一一匹配,可以有效解決樣本選擇性偏差。

                上邊就是數據分析前,需要大家做的各種量化工作。


                ?

                聯系地址

                鄭州高新技術產業開發區西三環279號河南省大學科技園12號樓13層1303室

                咨詢熱線

                0371-55355786

                中易科技
                无码aⅴ精品一区二区三区天美|99久久国产综合精品麻豆|久久机热这里只有精品9|久久成本大片免费播放

                1. <bdo id="md19b"><dfn id="md19b"></dfn></bdo>
                  1. <bdo id="md19b"><optgroup id="md19b"></optgroup></bdo>
                    1. <tbody id="md19b"></tbody>

                          <track id="md19b"></track>

                          <menuitem id="md19b"><dfn id="md19b"></dfn></menuitem>

                          <track id="md19b"></track>