歡迎聯(lián)系我

有什么可以幫您,？在線咨詢

做實(shí)驗(yàn)需要掌握哪些統(tǒng)計學(xué)知識,？

來源：湘潭宇科分析儀器有限公司 2025年01月04日 10:45

統(tǒng)計學(xué)是數(shù)據(jù)分析的基石,。學(xué)了統(tǒng)計學(xué),，你會發(fā)現(xiàn)很多時候的分析并不靠譜,。比如很多人都喜歡用平均數(shù)去分析一個事物的結(jié)果，但是這往往是粗糙的,，不準(zhǔn)確的,。如果學(xué)了統(tǒng)計學(xué),，那么我們就能以更多更科學(xué)的角度看待數(shù)據(jù),。

大部分的數(shù)據(jù)分析,，都會用到統(tǒng)計方面的以下知識,，可以重點(diǎn)學(xué)習(xí)：

基本的統(tǒng)計量：均值,、中位數(shù)、眾數(shù),、方差,、標(biāo)準(zhǔn)差,、百分位數(shù)等
概率分布：幾何分布、二項(xiàng)分布、泊松分布,、正態(tài)分布等
總體和樣本：了解基本概念，抽樣的概念
置信區(qū)間與假設(shè)檢驗(yàn)：如何進(jìn)行驗(yàn)證分析
相關(guān)性與回歸分析：一般數(shù)據(jù)分析的基本模型

通過基本的統(tǒng)計量,，你可以進(jìn)行更多元化的可視化，以實(shí)現(xiàn)更加精細(xì)化的數(shù)據(jù)分析。這個時候也需要你去了解更多的Excel函數(shù)來實(shí)現(xiàn)基本的計算，或者python,、R里面一些對應(yīng)的可視化方法。

有了總體和樣本的概念,，你就知道在面對大規(guī)模數(shù)據(jù)的時候,，怎樣去進(jìn)行抽樣分析。

你也可以應(yīng)用假設(shè)檢驗(yàn)的方法,，對一些感性的假設(shè)做出更加精確地檢驗(yàn),。

利用回歸分析的方法,，你可以對未來的一些數(shù)據(jù),、缺失的數(shù)據(jù)做基本的預(yù)測。

了解統(tǒng)計學(xué)的原理之后,，你不一定能夠通過工具實(shí)現(xiàn),，那么你需要去對應(yīng)的找網(wǎng)上找相關(guān)的實(shí)現(xiàn)方法，也可以看書,。先推薦一本非常簡單的：吳喜之-《統(tǒng)計學(xué)·從數(shù)據(jù)到結(jié)論》,。

另外，如何精力允許,，請掌握一些主流算法的原理,，比如線性回歸、邏輯回歸,、決策樹,、神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)分析,、聚類,、協(xié)同過濾、隨機(jī)森林,。再深入一點(diǎn),，還可以掌握文本分析、深度學(xué)習(xí),、圖像識別等相關(guān)的算法,。關(guān)于這些算法，不僅需要了解其原理,，你最好可以流暢地闡述出來,，還需要你知曉其在各行業(yè)的一些應(yīng)用場景,。如果現(xiàn)階段不是工作剛需，可不作為重點(diǎn),。

本文算是一個知識點(diǎn)匯總,，不做細(xì)致展開，讓大家了解統(tǒng)計學(xué)有哪幾大塊,，每一類分別用于什么樣的分析場景,。后面幾篇會以實(shí)際案例的方式，細(xì)致講講描述性統(tǒng)計,、概率分布等,。

知識點(diǎn)匯總：

1.集中趨勢

2.變異性

3.歸一化

4.正態(tài)分布

5.抽樣分布

6.估計

7.假設(shè)檢驗(yàn)

8.T檢驗(yàn)

一、集中趨勢

1.眾數(shù)

出現(xiàn)頻率最高的數(shù),；

2.中位數(shù)

把樣本值排序,，分布在最中間的值；

樣本總數(shù)為奇數(shù)時,，中位數(shù)為第(n+1)/2個值,；

樣本總數(shù)為偶數(shù)時，中位數(shù)是第n/2個,，第(n/2)+1個值的平均數(shù),；

3.平均數(shù)

所有數(shù)的總和除以樣本數(shù)量；

現(xiàn)在大家接觸最多的概念應(yīng)該是平均數(shù),，但有時候,，平均數(shù)會因?yàn)槟承O值的出現(xiàn)收到很大影響。舉個小例子,，你們班有20人,，大家收入差不多，19人都是5000左右,，但是有1個同學(xué)創(chuàng)業(yè)成功了,，年入1個億，這時候統(tǒng)計你們班同學(xué)收入的“平均數(shù)”就是500萬了,，這也很好的解釋了,，每年各地的平均收入數(shù)據(jù)出爐，小伙伴們直呼給祖國拖后腿了,，那是因?yàn)榇蠹沂杖氡黄骄?，此時，“中位數(shù)”更能合理的反映真實(shí)的情況,；

二,、變異性

1.四分位數(shù)

上面說到了“中位數(shù)”，把樣本分成了2部分，再找個這2部分各自的“中位數(shù)”,，也就把樣本分為了4個部分,，其中1/4處的值記為Q1，2/4處的值記為Q2,，3/4處的值記為Q3

2.四分位距 IQR=Q3-Q1

3.異常值

小于Q1-1.5(IQR)或者大于Q3+1.5(IQR);

對于異常值,，我們在數(shù)據(jù)處理的環(huán)節(jié)就要剔除；

4.方差

5.平方偏差

方差的算術(shù)平方根

6.貝塞爾矯正：修正樣本方差

實(shí)際在計算方差時,，分母要用n-1,，而不是樣本數(shù)量n。原因在于,，比如在高斯分布中,，我們抽取一部分的樣本，用樣本的方差表示滿足高斯分布的大樣本數(shù)據(jù)集的方差,。由于樣本主要是落在x=u中心值附近,，那么樣本如果用如下公式算方差，那么預(yù)測方差一定小于大數(shù)據(jù)集的方差（因?yàn)?span style="-webkit-tap-highlight-color: transparent; margin: 0px; padding: 0px; outline: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important; letter-spacing: 0.544px;">高斯分布的邊沿抽取的數(shù)據(jù)也很少）,。為了能彌補(bǔ)這方面的缺陷,，那么我們把公式的n改為n-1，以此來提高方差的數(shù)值,，這種方法叫貝塞爾矯正系數(shù),。

三、歸一化

1.標(biāo)準(zhǔn)分?jǐn)?shù)

一個給定分?jǐn)?shù) 距離平均數(shù) 多少個標(biāo)準(zhǔn)差,？

標(biāo)準(zhǔn)分?jǐn)?shù)是一種可以看出某分?jǐn)?shù)在分布中相對位置的方法。

標(biāo)準(zhǔn)分?jǐn)?shù)能夠真實(shí)的反映一個分?jǐn)?shù)距離平均數(shù)的相對標(biāo)準(zhǔn)距離,。

四,、正態(tài)分布

1.定義：隨機(jī)變量X服從一個數(shù)學(xué)期望為μ，方差為σ?2;的正態(tài)分布,，記為N(μ,σ?2;)

隨機(jī)取一個樣本,，有68.3%的概率位于距離均值μ有1個標(biāo)準(zhǔn)差σ內(nèi)；

有95.4%的概率位于距離均值μ有2個標(biāo)準(zhǔn)差σ內(nèi),；

有99.7%的概率位于距離均值μ有3個標(biāo)準(zhǔn)差σ內(nèi),；

五、抽樣分布

1.中心極限定理

設(shè)從均值為μ,，方差為σ?2;的任意一個總體中抽取樣本量為n的樣本,，當(dāng)n充分大時，樣本均值的抽樣分布近似服從均值為μ,、方差為σ?2;/n的正態(tài)分布

2.抽樣分布

設(shè)總體共有N個元素,，從中隨機(jī)抽取一個容量為n的樣本，在重置抽樣時，共有N·n種抽法,，即可以組成N·n不同的樣本,，在不重復(fù)抽樣時，共有N·n個可能的樣本,。每一個樣本都可以計算出一個均值,，這些所有可能的抽樣均值形成的分布就是樣本均值的分布。但現(xiàn)實(shí)中不可能將所有的樣本都抽取出來,，因此,，樣本均值的概率分布實(shí)際上是一種理論分布。數(shù)理統(tǒng)計學(xué)的相關(guān)定理已經(jīng)證明：在重置抽樣時,，樣本均值的方差為總體方差的1/n,。

舉個例子：

48盆MM豆，計算出每盆有幾個藍(lán)色的MM豆,，48個數(shù)據(jù)構(gòu)成了總體樣本,。然后隨機(jī)選擇五盆，計算五盆中含有藍(lán)色MM豆的平均數(shù),，然后反復(fù)進(jìn)行了50次,。這就是n為5的樣本均值抽樣。

六,、估計

1. 誤差界限

2. 置信度

We are some % sure the true population parameter falls within a specific range

我們有百分之多少確信總體中的值落在一個特定范圍內(nèi),；

一般情況下，取95%的置信度就可以,；

3. 置信區(qū)間

七,、假設(shè)檢驗(yàn)

1.問題：什么是顯著性水平？

顯著性水平是估計總體參數(shù)落在某一區(qū)間內(nèi),，可能犯錯誤的概率,，也就是Type I Error

A Type II Error is when you fail to reject the null when it is actually false.

2. 如何選擇備選檢驗(yàn)和零假設(shè)？

一個研究者想證明自己的研究結(jié)論是正確的,，備擇假設(shè)的方向就要與想要證明其正確性的方向一致,；

同時將研究者想收集證據(jù)證明其不正確的假設(shè)作為原假設(shè)H0

八、T檢驗(yàn)

1. 主要用于樣本含量較?。ɡ鏽<30）,，總體標(biāo)準(zhǔn)差σ未知的正態(tài)分布。

流程如下：

是用t分布理論來推論差異發(fā)生的概率,，從而比較兩個平均數(shù)的差異是否顯著,；

一般檢驗(yàn)水準(zhǔn)α取0.05即可；

計算檢驗(yàn)統(tǒng)計量的方法根據(jù)樣本形式不同;

2. 獨(dú)立樣本T檢驗(yàn)：

現(xiàn)在要分析男生和女生的身高是否相同兩者的主要區(qū)別在于數(shù)據(jù)的來源和要分析的問題,。

問題：為什么T檢驗(yàn)查表時候要n-1?

樣本均值替代總體均值損失了一個自由度

3. 配對樣本t檢驗(yàn)

分析人的早晨和晚上的身高是否不同,，于是找來一撥人測他們早上和晚上的身高,，這里每個人就有兩個值，這里出現(xiàn)了配對

樣本誤差（Standard Error）

4. Pooled variance 合并方差

當(dāng)樣本平均數(shù)不一樣,，但實(shí)際上認(rèn)為他們的方差是一樣的時候,，需要合并方差

不要被公式嚇到，他的本質(zhì)是兩個樣本方差加權(quán)平均

5. Cohen’s d

效應(yīng)量(effect size):提示組間真正的差異占統(tǒng)計學(xué)差異的比例,，值越大,，組間差異越可靠。

相關(guān)產(chǎn)品

免責(zé)聲明

凡本網(wǎng)注明“來源：化工儀器網(wǎng)”的所有作品,，均為浙江興旺寶明通網(wǎng)絡(luò)有限公司-化工儀器網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品,，未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品,。已經(jīng)本網(wǎng)授權(quán)使用作品的,，應(yīng)在授權(quán)范圍內(nèi)使用，并注明“來源：化工儀器網(wǎng)”,。違反上述聲明者,，本網(wǎng)將追究其相關(guān)法律責(zé)任。
本網(wǎng)轉(zhuǎn)載并注明自其他來源（非化工儀器網(wǎng)）的作品,，目的在于傳遞更多信息,，并不代表本網(wǎng)贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé)，不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任,。其他媒體,、網(wǎng)站或個人從本網(wǎng)轉(zhuǎn)載時，必須保留本網(wǎng)注明的作品第一來源,，并自負(fù)版權(quán)等法律責(zé)任,。
如涉及作品內(nèi)容、版權(quán)等問題,，請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,，否則視為放棄相關(guān)權(quán)利。

做實(shí)驗(yàn)需要掌握哪些統(tǒng)計學(xué)知識,？

免責(zé)聲明

聯(lián)系我們

關(guān)注我們