第一節 標準差

上一模組中,我們看過以下的例子:考慮兩組數據 \begin{align*} S_1 &= \{ 1,2,3,4,5,5,6,7,8,9 \} \\ S_2 &= \{ 1,3,3,5,5,5,5,7,7,9 \} \end{align*}

它們的分佈域四分位數間距相同,但只要觀察兩組數據的圖像:

\(S_1\;\)的棒形圖
\(S_2\;\)的棒形圖

我們不難發現\(\;S_1\;\)的離差較\(\;S_2\;\)大。換句話說,分佈域和四分位數間距不足以分辨這兩組數據的離差。這是因為兩種離差量度都只取決於數據組中的幾個數字,而沒有考慮所有數據。我們需要一種更精細,考慮所有數據的離差量度,而標準差(standard derivation)就是一種這樣的量度。

標準差

基於數據是否分組,標準差的計算方法有所不同。

不分組數據

考慮一組數據\(\;S=\{x_1,x_2,\cdots,x_n\}\),設\(\;\bar{x}\;\)為它的算術平均數,對於\(\;S\;\)中的每項數據\(\;x\),定義它的偏差為\(\;x-\bar{x}\)。偏差可以讓我們知道一項數據與算術平均數的偏離程度,例如 \[ S = \{ 15, 29, 19, 10, 27 \} \] 它的算術平均數是 \[ \bar{x} = \frac{15+29+19+10+27}{5} = 20 \] 我們可以計算出每項數據的偏差:

數據 \(15\) \(29\) \(19\) \(10\) \(27\)
偏差 \(-5\) \(9\) \(-1\) \(-10\) \(7\)

由於算術平均數是數據的集中趨勢,把這些偏差以某種方式結合,就可以用來量度離差。最簡單的想法是取這些偏差的平均數,但這行不通,因為任何一組數據的偏差之和均為\(\;0\),例如,在以上的數據組中, \[ \hbox{偏差之和} = -5+9+(-1)+(-10)+7 = 0 \] 仔細看看每個偏差,就會發現它們有正有負,加起來後會互相抵消。為了確保這些偏差不會互相抵消,我們可以在相加前先把每項都取平方,即 \[ \sigma^2 = \frac{(x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots+(x_n-\bar{x})^2}{n} \] 這就是數據組\(\;S\;\)的方差(variance),方差也是統計學上的一種重要離差量度,但它的單位和原本數據的不同。為了方便比較,我們會把方差開方,這就是標準差。

對於一組數據\(\;S=\{x_1,x_2,\cdots,x_n\}\),若它的算術平均數為\(\;\bar{x}\),則定義它的標準差為 \[ \sigma = \sqrt{\frac{(x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots+(x_n-\bar{x})^2}{n}} \]

  1. 計算上面的數據組 \[ S = \{ 15, 29, 19, 10, 27 \} \] 之標準差。
  2. 在這組數據中,有多少項數據距離平均數多於一個標準差?

提示

  1. 我們已經計算過這組數據的平均數 \[ \bar{x} = \frac{15+29+19+10+27}{5} = 20 \] 所以這組數據的標準差為 \begin{align*} \sigma &= \textstyle \sqrt{\frac{(15-20)^2+(29-20)^2+(19-20)^2+(10-20)^2+(27-20)^2}{5}} \\ &= \textstyle \sqrt{\frac{256}{5}} \\ &= \textstyle \frac{16}{\sqrt{5}} \\ &\approx 7.1554 \end{align*}
  2. 我們有 \begin{align*} \bar{x} - \sigma &\approx 20 - 7.1554 = 12.8446 \\ \bar{x} + \sigma &\approx 20 + 7.1554 = 27.1554 \end{align*} 檢查數據組,我們發現有\(\;2\;\)項數據距離平均數多於一個標準差(分別為\(10\;\)和\(\;29\))。

考慮本節開頭的兩組數據: \begin{align*} S_1 &= \{ 1,2,3,4,5,5,6,7,8,9 \} \\ S_2 &= \{ 1,3,3,5,5,5,5,7,7,9 \} \end{align*} 以標準差來比較這兩組數據的離差。

提示

首先計算這兩組數據的平均數: \begin{align*} S_1 \hbox{ 的平均數} &= \frac{1+2+3+4+5+5+6+7+8+9}{10} = 5 \\ S_2 \hbox{ 的平均數} &= \frac{1+3+3+5+5+5+5+7+7+9}{10} = 5 \end{align*}

所以,數據組\(\;S_1\;\)的標準差為

\begin{align*} & \sigma_{S_1} \\ \textstyle =& \textstyle \sqrt{\frac{(1-5)^2+(2-5)^2+(3-5)^2+(4-5)^2+(5-5)^2+(5-5)^2+(6-5)^2+(7-5)^2+(8-5)^2+(9-5)^2}{10}} \\ \textstyle =& \textstyle \sqrt{\frac{60}{10}} \\ \textstyle =& \sqrt{6} \\ \approx& 2.4495 \end{align*}
而數據組\(\;S_2\;\)的標準差為
\begin{align*} & \sigma_{S_2} \\ =& \textstyle \sqrt{\frac{(1-5)^2+(3-5)^2+(3-5)^2+(5-5)^2+(5-5)^2+(5-5)^2+(5-5)^2+(7-5)^2+(7-5)^2+(9-5)^2}{10}} \\ =& \textstyle \sqrt{\frac{48}{10}} \\ \approx& 2.1909 \end{align*}

由於\(\;S_1\;\)的標準差較\(\;S_2\;\)的大,所以\(\;S_1\;\)的離差較大。

分組數據

跟不分組數據時的情況類似,對於分組數據\(\;S\),我們可如下定義標準差:

對於一組分組數據,設\(\;\bar{x}\;\)為它的算術平均數,若各組的組中點為\(\;\{ x_1,x_2,\cdots,x_n \}\),而其對應頻數分別為\(\;\{ f_1,f_2,\cdots,f_n \}\),則它的標準差為 \[ \sigma = \sqrt{\frac{f_1(x_1-\bar{x})^2+f_2(x_2-\bar{x})^2+\cdots+f_n(x_n-\bar{x})^2}{f_1+f_2+\cdots+f_n}} \]

注意 我們可以定義分組數據的方差為其標準差的平方,即\(\;\sigma^2\)。

求以下分組數據的標準差。

組區 組中點 頻數
\(1-10\) \(5.5\) \(1\)
\(11-20\) \(15.5\) \(4\)
\(21-30\) \(25.5\) \(10\)
\(31-40\) \(35.5\) \(7\)
\(41-50\) \(45.5\) \(3\)

提示

首先計算這組數據的平均數: \begin{align*} \bar{x} &= \frac{5.5\times 1 + 15.5\times 4 + 25.5\times 10 + 35.5\times 7 + 45.5\times 3}{1+4+10+7+3} \\ &= \frac{707.5}{25} \\ &= 28.3 \end{align*}

所以,這組數據的標準差為

\begin{align*} & \sigma_{S_1} \\ \textstyle =& \textstyle \sqrt{\frac{1(5.5-28.3)^2+4(15.5-28.3)^2+10(25.5-28.3)^2+7(35.5-28.3)^2+3(45.5-28.3)^2}{1+4+10+7+3}} \\ \textstyle =& \textstyle \sqrt{\frac{2504}{25}} \\ \approx& 10.0080 \end{align*}

注意 相比分佈域和四分位數間距,標準差可以更準確量度離差,但它也不是毫無缺點。例如,標準差的計算比分佈域和四分位數間距的計算複雜得多,當數據量大的時候,我們一般需要利用電腦來計算標準差。

數學實驗 - 不分組數據的標準差

在附設的標準差計算器中,你可以選擇數據的數量,再輸入數據(每個數據都必須是\(\;1-29\;\)之間的整數),這組數據的平均數及標準差會自動顯示出來。試利用這個模型,回答以下的問題。

這個實驗的目的是探索標準差在數據改變時的變化。在標準差計算器中,我們已預先輸入一組數據\(\;\{ 15,29,19,10,27 \}\),在例子一中,我們計算過它的平均數和標準差: \begin{align*} \hbox{平均數} &= 20, & \hbox{標準差} &= 7.1554 \end{align*}

  1. 把第一個數據\(\;15\;\)減少至\(\;5\),數據組的標準差會

    增加

    減少

    維持不變

  2. 請按「重設數據」按鈕將數據重設至原來的數值。這次把最後一個數據\(\;27\;\)減少\(\;20\),數據組的標準差會

    增加

    減少

    維持不變

  3. 將數據重設至原來的數值。把第一個數據\(\;15\;\)不斷增加,數據組的標準差會
    1. 在上一步中,當標準差達到最小值的時候,第一個數據的值是多少?
    2. 這時數據組的平均數最接近個整數?
  4. 將數據重設至原來的數值。把最後一個數據\(\;27\;\)不斷減少,數據組的標準差會
    1. 在上一步中,當標準差達到最小值的時候,最後一個數據的值是多少?
    2. 這時數據組的平均數最接近個整數?

思考 你能看到標準差的值和數據改變的關係嗎?(參考答案將在提交後顯示)

在實驗一中,我們看到了標準差和平均數的關係,而這個實驗會從另一角度探索標準差在數據改變時的變化。在標準差計算器中,我們已預先輸入一組數據\(\;\{ 15,29,19,10,27 \}\),在例子一中,我們計算過它的平均數和標準差: \begin{align*} \hbox{平均數} &= 20, & \hbox{標準差} &= 7.1554 \end{align*}

  1. 把這組數據的每一項都增加\(\;1\),即把數據組變成\(\;\{ 16, 30, 20, 11, 28 \}\),這時平均數會增加\(\;1\),而數據組的標準差會

    增加

    減少

    維持不變

  2. 將數據重設至原來的數值。把這組數據的每一項都減少\(\;1\),即把數據組變成\(\;\{ 14, 28, 18, 9, 26 \}\),這時平均數會減少\(\;1\),而數據組的標準差會

    增加

    減少

    維持不變

  3. 不要使用計算器,若把這組數據的每一項都增加\(\;50\),你認為數據組的標準差會有何改變?

    增加

    減少

    維持不變

    1. 將數據重設至原來的數值。移動數滑桿增加數據量至\(\;6\),並把新增的數據改變成原來的平均數\(\;20\),數據組的平均數會

      增加

      減少

      維持不變

    2. 數據組的標準差會

      增加

      減少

      維持不變

    1. 將數據重設至原來的數值。這次我們把數據組複製一遍,即把數據組改為\(\;\{ 15, 29, 19, 10, 27, 15, 29, 19, 10, 27 \}\),數據組的平均數會

      增加

      減少

      維持不變

    2. 數據組的標準差會

      增加

      減少

      維持不變

思考 怎樣改變數據會不影響其標準差?(參考答案將在提交後顯示)

這個實驗的目的是探索極端數據對標準差的影響。

  1. 考慮數據組\(\;\{1,2,3,4,5\}\),利用附設的標準差計算器,計算它的平均數和標準差。(標準差需準確至小數點後四位)
    平均數: 標準差:
  2. 在計算器中新增一項數據\(\;27\),即把數據組改為\(\;\{ 1,2,3,4,5,27 \}\),它的平均數和標準差是多少?(標準差需準確至小數點後四位)
    平均數: 標準差:
    1. 新增了數據\(\;27\;\)後,平均數變成了原本的多少倍?(準確至最接近整數)
    2. 新增了數據\(\;27\;\)後,標準差變成了原本的多少倍?(準確至最接近整數)
  3. 你認為標準差容易受極端數據影響嗎?

    容易

    不容易

請輸入數據量:5
平均數 20.00 標準差 7.1554
標準差計算器
下一節