在上一模組中,我們看過以下的例子:考慮兩組數據 \begin{align*} S_1 &= \{ 1,2,3,4,5,5,6,7,8,9 \} \\ S_2 &= \{ 1,3,3,5,5,5,5,7,7,9 \} \end{align*}
它們的分佈域和四分位數間距均相同,但只要觀察兩組數據的圖像:
我們不難發現\(\;S_1\;\)的離差較\(\;S_2\;\)大。換句話說,分佈域和四分位數間距不足以分辨這兩組數據的離差。這是因為兩種離差量度都只取決於數據組中的幾個數字,而沒有考慮所有數據。我們需要一種更精細,考慮所有數據的離差量度,而標準差(standard derivation)就是一種這樣的量度。
基於數據是否分組,標準差的計算方法有所不同。
考慮一組數據\(\;S=\{x_1,x_2,\cdots,x_n\}\),設\(\;\bar{x}\;\)為它的算術平均數,對於\(\;S\;\)中的每項數據\(\;x\),定義它的偏差為\(\;x-\bar{x}\)。偏差可以讓我們知道一項數據與算術平均數的偏離程度,例如 \[ S = \{ 15, 29, 19, 10, 27 \} \] 它的算術平均數是 \[ \bar{x} = \frac{15+29+19+10+27}{5} = 20 \] 我們可以計算出每項數據的偏差:
數據 | \(15\) | \(29\) | \(19\) | \(10\) | \(27\) |
---|---|---|---|---|---|
偏差 | \(-5\) | \(9\) | \(-1\) | \(-10\) | \(7\) |
由於算術平均數是數據的集中趨勢,把這些偏差以某種方式結合,就可以用來量度離差。最簡單的想法是取這些偏差的平均數,但這行不通,因為任何一組數據的偏差之和均為\(\;0\),例如,在以上的數據組中, \[ \hbox{偏差之和} = -5+9+(-1)+(-10)+7 = 0 \] 仔細看看每個偏差,就會發現它們有正有負,加起來後會互相抵消。為了確保這些偏差不會互相抵消,我們可以在相加前先把每項都取平方,即 \[ \sigma^2 = \frac{(x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots+(x_n-\bar{x})^2}{n} \] 這就是數據組\(\;S\;\)的方差(variance),方差也是統計學上的一種重要離差量度,但它的單位和原本數據的不同。為了方便比較,我們會把方差開方,這就是標準差。
對於一組數據\(\;S=\{x_1,x_2,\cdots,x_n\}\),若它的算術平均數為\(\;\bar{x}\),則定義它的標準差為 \[ \sigma = \sqrt{\frac{(x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots+(x_n-\bar{x})^2}{n}} \]
提示
考慮本節開頭的兩組數據: \begin{align*} S_1 &= \{ 1,2,3,4,5,5,6,7,8,9 \} \\ S_2 &= \{ 1,3,3,5,5,5,5,7,7,9 \} \end{align*} 以標準差來比較這兩組數據的離差。
提示
首先計算這兩組數據的平均數: \begin{align*} S_1 \hbox{ 的平均數} &= \frac{1+2+3+4+5+5+6+7+8+9}{10} = 5 \\ S_2 \hbox{ 的平均數} &= \frac{1+3+3+5+5+5+5+7+7+9}{10} = 5 \end{align*}
所以,數據組\(\;S_1\;\)的標準差為
由於\(\;S_1\;\)的標準差較\(\;S_2\;\)的大,所以\(\;S_1\;\)的離差較大。
跟不分組數據時的情況類似,對於分組數據\(\;S\),我們可如下定義標準差:
對於一組分組數據,設\(\;\bar{x}\;\)為它的算術平均數,若各組的組中點為\(\;\{ x_1,x_2,\cdots,x_n \}\),而其對應頻數分別為\(\;\{ f_1,f_2,\cdots,f_n \}\),則它的標準差為 \[ \sigma = \sqrt{\frac{f_1(x_1-\bar{x})^2+f_2(x_2-\bar{x})^2+\cdots+f_n(x_n-\bar{x})^2}{f_1+f_2+\cdots+f_n}} \]
注意 我們可以定義分組數據的方差為其標準差的平方,即\(\;\sigma^2\)。
求以下分組數據的標準差。
組區 | 組中點 | 頻數 |
---|---|---|
\(1-10\) | \(5.5\) | \(1\) |
\(11-20\) | \(15.5\) | \(4\) |
\(21-30\) | \(25.5\) | \(10\) |
\(31-40\) | \(35.5\) | \(7\) |
\(41-50\) | \(45.5\) | \(3\) |
提示
首先計算這組數據的平均數: \begin{align*} \bar{x} &= \frac{5.5\times 1 + 15.5\times 4 + 25.5\times 10 + 35.5\times 7 + 45.5\times 3}{1+4+10+7+3} \\ &= \frac{707.5}{25} \\ &= 28.3 \end{align*}
所以,這組數據的標準差為
注意 相比分佈域和四分位數間距,標準差可以更準確量度離差,但它也不是毫無缺點。例如,標準差的計算比分佈域和四分位數間距的計算複雜得多,當數據量大的時候,我們一般需要利用電腦來計算標準差。
在附設的標準差計算器中,你可以選擇數據的數量,再輸入數據(每個數據都必須是\(\;1-29\;\)之間的整數),這組數據的平均數及標準差會自動顯示出來。試利用這個模型,回答以下的問題。
這個實驗的目的是探索標準差在數據改變時的變化。在標準差計算器中,我們已預先輸入一組數據\(\;\{ 15,29,19,10,27 \}\),在例子一中,我們計算過它的平均數和標準差: \begin{align*} \hbox{平均數} &= 20, & \hbox{標準差} &= 7.1554 \end{align*}
增加 |
減少 |
維持不變 |
增加 |
減少 |
維持不變 |
思考 你能看到標準差的值和數據改變的關係嗎?(參考答案將在提交後顯示)
在實驗一中,我們看到了標準差和平均數的關係,而這個實驗會從另一角度探索標準差在數據改變時的變化。在標準差計算器中,我們已預先輸入一組數據\(\;\{ 15,29,19,10,27 \}\),在例子一中,我們計算過它的平均數和標準差: \begin{align*} \hbox{平均數} &= 20, & \hbox{標準差} &= 7.1554 \end{align*}
增加 |
減少 |
維持不變 |
增加 |
減少 |
維持不變 |
增加 |
減少 |
維持不變 |
增加 |
減少 |
維持不變 |
增加 |
減少 |
維持不變 |
增加 |
減少 |
維持不變 |
增加 |
減少 |
維持不變 |
思考 怎樣改變數據會不影響其標準差?(參考答案將在提交後顯示)
這個實驗的目的是探索極端數據對標準差的影響。
平均數: | 標準差: |
---|
平均數: | 標準差: |
---|
容易 |
不容易 |
請輸入數據量:5 |
平均數 | 20.00 | 標準差 | 7.1554 |
---|