干貨:關乎你的實驗成敗,0.05這個值不容小噓!


幾乎每篇實驗性的科研論文里都要有對照組和實驗組,我們往往也是將實驗組和對照組相比,看看性能是變好了還是變差了,有沒有顯著性差異呢?大部分科研搬磚者們都會進行假設檢驗,求算出P值,如果P值小于0.05,?我們就說兩者之間有顯著性差異。那么你真的了解P值君,到底是啥嗎?下面和小編一起走進統計學的世界吧,讓你的數據分析地更有理有據,文章看起來更高大上哦!

上圖是一片文章里關于數據統計學代表性的說明。一般任何一篇實驗性的論文里,都要有統計學分析這一模塊。也就是說你不能只做一組實驗,只測一個數據,就去說這個產品或者實驗結果好不好,這樣是沒有說服力的。因此,一般的科研論文里,每組數據至少是三個樣本量,再對比組分之間的差異。有些教授更注重數據的真實性和再現性,因此可能會讓第二個學生來重復你的實驗,看是否能得到相同的結果。總之,就是說我們科研論文里的數據要有統計學意義,要能反映真實的水平。上圖論文里的統計學分析也是目前用的最多的一種簡單的分析,大意是所有的數據是從三個獨立的實驗中得到的,并且數據的呈現方式是平均值±標準偏差的方式。使用的單因子ANOVA方差分析的方式求算P值,若P值小于0.05,則會被認為是具有顯著性差異。

那么上述中的P值具體是什么呢?且聽筆者娓娓道來。

現代統計學可分為統計描述和統計推斷兩個部分。統計描述簡單來說,就是把數據按一定的方式呈現,求算平均值、中位數,看看數據處于什么水平。標準差就是用來看數據波動的程度。當然也可以用柱狀圖,箱線圖,散點圖等統計圖形來更為形象直觀地展示。而統計推斷是用我們手中的樣本數據來推斷其背后的總體特征,分為參數估計和假設檢驗兩大部分。

參數估計是利用樣本的統計量去估計總體的參數,比如說用樣本的平均數去估算整體的平均值。考慮到抽樣誤差,一般我們會用一個范圍,而不是一個單一的值去估計總體參數,此即所謂的區間估計。

假設檢驗則是利用小概率反正法思想,從問題的對立面(H0,原假設)出發,假定H0成立的條件下,去計算檢驗統計量,獲得P值,再通過P值來在H0,H1(備擇假設)之間做進一步取舍。因此,P值就是在H0為真的條件下,獲得當前樣本或者更偏的樣本的概率。我們舉個例子,比如說我們假設實驗組和對照組兩者均值相等,根據假設檢驗求算出P值小于0.05,這也就說明只有5%不到的概率表示原假設(實驗組和對照組兩者均值相等)成立,介于這概率太低,那么也就能說明原假設應該是不成立的,也就是實驗組和對照組兩者均值不相等,有顯著性差異。

了解了P值之后,要了解假設檢驗的方法。下表給出了統計學中常用的假設檢驗的方法。

數據類型

均值

等方差檢驗

正態分布數據

非正態分布數據

正態分布數據

非正態分布數據

單總體

偏差已知,使用Z檢驗;偏差未知,使用T檢驗

中位數檢驗

卡方檢驗

Bonett檢驗

雙總體

雙T檢驗或配對檢驗

Mann- Whitney檢驗

F檢驗

Levene檢驗

多總體

方差分析

Kruskal-walls檢驗法、Mood中位數檢驗法、Fredman檢驗法

Bonett檢驗

Levene檢驗

看到復雜的上表,千萬不要頭疼,我們一般使用較多的便是多總體的方差分析的方法,來比較實驗組與對照組之間是否有顯著性差異。而方差分析,一般利用origin\graphpad\minitab,甚至EXCEL都是有公式能夠進行計算的。

下面來看看處理好數據之后,如何把數據展示出來吧。大家也都知道,好的雜志發表的頂尖文章里,配圖和實驗數據的展示也都是一流的。下圖是一篇論文里展示數據的方式,可以發現作者用柱狀圖的形式,將各組數據的平均值及偏差表示出來,又兩兩對比是否存在顯著性差異。*代表兩者之間P值小于0.05,**代表兩者之間P值小于0.01,***代表兩者之間P值小于0.001。這樣我們便能很直觀的了解到各組之間的數據水平及差異。

上圖是常見的科研論文里呈現數據的柱狀圖,我們一般使用ORIGIN或者Graphpad便可以畫出來。下面,小編給大家介紹一個新軟件,專門用來進行統計學分析及畫圖的軟件-MINITAB。學好了,可以讓你的數據處理地更專業,也能用更好的方式去呈現你的實驗數據。

首先,來看一下百度百科對Minitab軟件的介紹吧。Minitab軟件是現代質量管理統計的領先者,全球六西格瑪實施的共同語言,以無可比擬的強大功能和簡易的可視化操作深受廣大質量學者和統計專家的青睞。Minitab 1972年成立于美國的賓夕法尼亞州州立大學(Pennsylvania State University),到目前為止,已經在全球100多個國家,4800多所高校被廣泛使用。

打開MINITAB的界面是下面這樣的。

我們一般使用最多的兩個功能,分別是統計與圖形兩個模塊。

下面來到重點,介紹一下如何求算兩組數據之間的P值以及如何畫箱線圖。首先,我們要確定這兩組數據是不是正太分布,是不是等方差,根據我們上面列的表格,選擇合適的假設檢驗的方法。

上圖實驗組和對照組的數據,經計算是獨立正態等方差的,因此我們選擇雙T假設檢驗的方法,求算出P值為0.002,?小于0.05,也就是說在95%的置信度下,實驗組和對照組是有顯著性差異的。

雙樣本?T?檢驗和置信區間:?對照組,?實驗組

方法

μ?:?對照組?的均值

μ?:?實驗組?的均值

差值: μ? - μ?

未針對此分析假定等方差。

描述性統計量

樣本

N

均值

標準差

均值標
準誤

對照組

5

5.40

2.07

0.93

實驗組

5

11.200

0.837

0.37

差值的估計值

差值

差值的?95%
置信區間

-5.80

(-8.37, -3.23)

檢驗

原假設

H?: μ? - μ? = 0

備擇假設

H?: μ? - μ? ≠ 0

?

T?值

自由度

P?值

-5.80

5

0.002

此外,我們也可以將這兩組數據,畫成箱線圖,更直觀地表示兩組數據的分布情況。

 

Minitab是統計學及數據處理領域中功能非常強大的一款軟件,如果大家有興趣,可以再深層次地學習一下,能夠對分析實驗數據,對比差異性能提供更專業的技術支持。

以上,就是今天介紹的統計學知識啦,現在你了解P值是什么了嗎?實驗論文中,我們一般的樣本量大多為3個或5個,求算平均值及標準偏差。沒有誤差棒的數據圖,是會被詬病的。 所以請大家千萬要有數據統計的意識,保證你的實驗數據是有代表性意義的。在進行統計學分析的時候,做到知其然并知其所以然!

往期回顧:

干貨:疲勞測試方法及應用介紹

干貨:一文解讀銅基CO2還原催化劑

干貨:X射線吸收譜(XAFS)在多相催化中的應用

科研干貨| Rietveld精修入門

?
?

本文由作者杜老師供稿

歡迎大家到材料人宣傳科技成果并對文獻進行深入解讀,投稿郵箱: tougao@cailiaoren.com.

投稿以及內容合作可加編輯微信:cailiaorenVIP.

分享到