統(tǒng)計學是數(shù)據(jù)分析的基石,。學了統(tǒng)計學,你會發(fā)現(xiàn)很多時候的分析并不靠譜,。比如很多人都喜歡用平均數(shù)去分析一個事物的結果,,但是這往往是粗糙的,不準確的,。如果學了統(tǒng)計學,,那么我們就能以更多更科學的角度看待數(shù)據(jù)。
大部分的數(shù)據(jù)分析,,都會用到統(tǒng)計方面的以下知識,,可以重點學習:
基本的統(tǒng)計量:均值、中位數(shù)、眾數(shù),、方差,、標準差、百分位數(shù)等
概率分布:幾何分布,、二項分布,、泊松分布、正態(tài)分布等
總體和樣本:了解基本概念,,抽樣的概念
置信區(qū)間與假設檢驗:如何進行驗證分析
相關性與回歸分析:一般數(shù)據(jù)分析的基本模型
通過基本的統(tǒng)計量,,你可以進行更多元化的可視化,以實現(xiàn)更加精細化的數(shù)據(jù)分析,。這個時候也需要你去了解更多的Excel函數(shù)來實現(xiàn)基本的計算,,或者python、R里面一些對應的可視化方法,。
有了總體和樣本的概念,,你就知道在面對大規(guī)模數(shù)據(jù)的時候,怎樣去進行抽樣分析,。
你也可以應用假設檢驗的方法,,對一些感性的假設做出更加精確地檢驗。
利用回歸分析的方法,,你可以對未來的一些數(shù)據(jù),、缺失的數(shù)據(jù)做基本的預測。
了解統(tǒng)計學的原理之后,,你不一定能夠通過工具實現(xiàn),,那么你需要去對應的找網(wǎng)上找相關的實現(xiàn)方法,也可以看書,。先推薦一本非常簡單的:吳喜之-《統(tǒng)計學·從數(shù)據(jù)到結論》,。
另外,如何精力允許,,請掌握一些主流算法的原理,,比如線性回歸、邏輯回歸,、決策樹,、神經(jīng)網(wǎng)絡、關聯(lián)分析,、聚類,、協(xié)同過濾、隨機森林,。再深入一點,,還可以掌握文本分析、深度學習、圖像識別等相關的算法,。關于這些算法,,不僅需要了解其原理,你最好可以流暢地闡述出來,,還需要你知曉其在各行業(yè)的一些應用場景,。如果現(xiàn)階段不是工作剛需,,可不作為重點,。
本文算是一個知識點匯總,不做細致展開,,讓大家了解統(tǒng)計學有哪幾大塊,,每一類分別用于什么樣的分析場景。后面幾篇會以實際案例的方式,,細致講講描述性統(tǒng)計,、概率分布等。
知識點匯總:
1.集中趨勢
2.變異性
3.歸一化
4.正態(tài)分布
5.抽樣分布
6.估計
7.假設檢驗
8.T檢驗
一,、集中趨勢
1.眾數(shù)
出現(xiàn)頻率最高的數(shù),;
2.中位數(shù)
把樣本值排序,分布在最中間的值,;
樣本總數(shù)為奇數(shù)時,,中位數(shù)為第(n+1)/2個值;
樣本總數(shù)為偶數(shù)時,,中位數(shù)是第n/2個,,第(n/2)+1個值的平均數(shù);
3.平均數(shù)
所有數(shù)的總和除以樣本數(shù)量,;
現(xiàn)在大家接觸最多的概念應該是平均數(shù),,但有時候,平均數(shù)會因為某些極值的出現(xiàn)收到很大影響,。舉個小例子,,你們班有20人,大家收入差不多,,19人都是5000左右,,但是有1個同學創(chuàng)業(yè)成功了,年入1個億,,這時候統(tǒng)計你們班同學收入的“平均數(shù)”就是500萬了,,這也很好的解釋了,每年各地的平均收入數(shù)據(jù)出爐,,小伙伴們直呼給祖國拖后腿了,,那是因為大家收入被平均了,此時,“中位數(shù)”更能合理的反映真實的情況,;
二,、變異性
1.四分位數(shù)
上面說到了“中位數(shù)”,把樣本分成了2部分,,再找個這2部分各自的“中位數(shù)”,,也就把樣本分為了4個部分,其中1/4處的值記為Q1,,2/4處的值記為Q2,,3/4處的值記為Q3
2.四分位距 IQR=Q3-Q1
3.異常值
小于Q1-1.5(IQR)或者大于Q3+1.5(IQR);
對于異常值,我們在數(shù)據(jù)處理的環(huán)節(jié)就要剔除,;
4.方差
5.平方偏差
方差的算術平方根
6.貝塞爾矯正:修正樣本方差
實際在計算方差時,,分母要用n-1,而不是樣本數(shù)量n,。原因在于,,比如在高斯分布中,我們抽取一部分的樣本,,用樣本的方差表示滿足高斯分布的大樣本數(shù)據(jù)集的方差,。由于樣本主要是落在x=u中心值附近,那么樣本如果用如下公式算方差,,那么預測方差一定小于大數(shù)據(jù)集的方差(因為高斯分布的邊沿抽取的數(shù)據(jù)也很少),。為了能彌補這方面的缺陷,那么我們把公式的n改為n-1,,以此來提高方差的數(shù)值,,這種方法叫貝塞爾矯正系數(shù)。
三,、歸一化
1.標準分數(shù)
一個給定分數(shù) 距離 平均數(shù) 多少個標準差,?
標準分數(shù)是一種可以看出某分數(shù)在分布中相對位置的方法。
標準分數(shù)能夠真實的反映一個分數(shù)距離平均數(shù)的相對標準距離,。
四,、正態(tài)分布
1.定義:隨機變量X服從一個數(shù)學期望為μ,方差為σ?2;的正態(tài)分布,,記為N(μ,σ?2;)
隨機取一個樣本,,有68.3%的概率位于距離均值μ有1個標準差σ內;
有95.4%的概率位于距離均值μ有2個標準差σ內,;
有99.7%的概率位于距離均值μ有3個標準差σ內,;
五、抽樣分布
1.中心極限定理
設從均值為μ,,方差為σ?2;的任意一個總體中抽取樣本量為n的樣本,,當n充分大時,,樣本均值的抽樣分布近似服從均值為μ、方差為σ?2;/n的正態(tài)分布
2.抽樣分布
設總體共有N個元素,,從中隨機抽取一個容量為n的樣本,,在重置抽樣時,共有N·n種抽法,,即可以組成N·n不同的樣本,,在不重復抽樣時,共有N·n個可能的樣本,。每一個樣本都可以計算出一個均值,,這些所有可能的抽樣均值形成的分布就是樣本均值的分布。但現(xiàn)實中不可能將所有的樣本都抽取出來,,因此,,樣本均值的概率分布實際上是一種理論分布,。數(shù)理統(tǒng)計學的相關定理已經(jīng)證明:在重置抽樣時,,樣本均值的方差為總體方差的1/n。
舉個例子:
48盆MM豆,,計算出每盆有幾個藍色的MM豆,,48個數(shù)據(jù)構成了總體樣本。然后隨機選擇五盆,,計算五盆中含有藍色MM豆的平均數(shù),,然后反復進行了50次。這就是n為5的樣本均值抽樣,。
六,、估計
1. 誤差界限
2. 置信度
We are some % sure the true population parameter falls within a specific range
我們有百分之多少確信總體中的值落在一個特定范圍內;
一般情況下,,取95%的置信度就可以,;
3. 置信區(qū)間
七、假設檢驗
1.問題:什么是顯著性水平,?
顯著性水平是估計總體參數(shù)落在某一區(qū)間內,,可能犯錯誤的概率,也就是Type I Error
A Type II Error is when you fail to reject the null when it is actually false.
2. 如何選擇備選檢驗和零假設,?
一個研究者想證明自己的研究結論是正確的,,備擇假設的方向就要與想要證明其正確性的方向一致;
同時將研究者想收集證據(jù)證明其不正確的假設作為原假設H0
八,、T檢驗
1. 主要用于樣本含量較?。ɡ鏽<30),總體標準差σ未知的正態(tài)分布,。
流程如下:
是用t分布理論來推論差異發(fā)生的概率,,從而比較兩個平均數(shù)的差異是否顯著,;
一般檢驗水準α取0.05即可;
計算檢驗統(tǒng)計量的方法根據(jù)樣本形式不同;
2. 獨立樣本T檢驗:
現(xiàn)在要分析男生和女生的身高是否相同兩者的主要區(qū)別在于數(shù)據(jù)的來源和要分析的問題,。
問題:為什么T檢驗查表時候要n-1?
樣本均值替代總體均值損失了一個自由度
3. 配對樣本t檢驗
分析人的早晨和晚上的身高是否不同,,于是找來一撥人測他們早上和晚上的身高,這里每個人就有兩個值,,這里出現(xiàn)了配對
樣本誤差(Standard Error)
4. Pooled variance 合并方差
當樣本平均數(shù)不一樣,,但實際上認為他們的方差是一樣的時候,需要合并方差
不要被公式嚇到,,他的本質是兩個樣本方差加權平均
5. Cohen’s d
效應量(effect size):提示組間真正的差異占統(tǒng)計學差異的比例,,值越大,組間差異越可靠,。
免責聲明
- 凡本網(wǎng)注明“來源:化工儀器網(wǎng)”的所有作品,,均為浙江興旺寶明通網(wǎng)絡有限公司-化工儀器網(wǎng)合法擁有版權或有權使用的作品,未經(jīng)本網(wǎng)授權不得轉載,、摘編或利用其它方式使用上述作品,。已經(jīng)本網(wǎng)授權使用作品的,應在授權范圍內使用,,并注明“來源:化工儀器網(wǎng)”,。違反上述聲明者,本網(wǎng)將追究其相關法律責任,。
- 本網(wǎng)轉載并注明自其他來源(非化工儀器網(wǎng))的作品,,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責,,不承擔此類作品侵權行為的直接責任及連帶責任,。其他媒體、網(wǎng)站或個人從本網(wǎng)轉載時,,必須保留本網(wǎng)注明的作品第一來源,,并自負版權等法律責任。
- 如涉及作品內容,、版權等問題,,請在作品發(fā)表之日起一周內與本網(wǎng)聯(lián)系,否則視為放棄相關權利,。