第二節 四分位數間距

上一節,我們介紹了分佈域,它是一個簡單的離差量度。不過,分佈域容易受極端數據影響,所以我們希望找一個沒那麼容易受極端數據影響的離差量度。四分位數間距(interquartile range)就是一個這樣的量度。

四分位數間距

簡單來說,四分位數間距就是數據組中,正中間那一半數據的分佈域。基於數據是否分組,四分位數間距的計算方法有所不同。

不分組數據

我們知道,若把不分組數據從小至大排列,則中位數會把該組數據劃分成上下兩等份(若數據的數目為單數,則上下兩部分都不包括中位數)。同理,四分位數會把該組數據劃分成四等分,即

四分位數間距

一組數據有三個四分位數,包括

  • 下四分位數(lower quartile, \(Q_1\)):它是下半部份數據的中位數;
  • 第二四分位數(median, \(Q_2\)):即中位數,它是整組數據的中間值;
  • 上四分位數(upper quartile, \(Q_3\)):它是上半部份數據的中位數。

四分位數間距就是上四分位數和下四分位數之差,即

\[ \hbox{四分位數間距} = Q_3-Q_1 \]
  1. 求下列數據組的分佈域和四分位數間距。
    1. \( S_1 = \{ 51, 52, 54, 55, 55, 57, 57, 58, 60, 100 \} \)
    2. \( S_2 = \{ 51, 51, 52, 53, 55, 55, 57, 59, 60 \} \)
  2. 以兩者的分佈域來看,以上哪一組數據的離差較大?
  3. 以兩者的四分位數間距來看,以上哪一組數據的離差較大?
  4. (開放式題目)你在 2. 和 3. 得到的結論是否一致?試解釋原因。

    1. \(S_1\;\)的分佈域為 \[ \hbox{分佈域} = 100 - 51 = 49 \] 要找出它的四分位數間距,首先注意\(\;S_1\;\)已經從小至大排列好了,把整組數據分為上下兩等份,可得 \[\begin{array}{cc} \hbox{下半部份} & \hbox{上半部份} \\ \overbrace{51, 52, 54, 55, 55}, & \overbrace{57, 57, 58, 60, 100} \end{array}\] 再分別找出上下兩部份的中位數 \begin{align*} Q_1 = \hbox{下半部份的中位數} = 54 \\ Q_3 = \hbox{上半部份的中位數} = 58 \end{align*} 所以,\(S_1\;\)的四分位數間距為 \[ \hbox{四分位數間距} = 58-54 = 4 \]
    2. \(S_2\;\)的分佈域為 \[ \hbox{分佈域} = 60 - 51 = 9 \] 要找出它的四分位數間距,首先注意\(\;S_2\;\)已經從小至大排列好了,把整組數據分為上下兩等份,可得 \[\begin{array}{ccc} \hbox{下半部份} & & \hbox{上半部份} \\ \overbrace{51, 51, 52, 53}, & 55, & \overbrace{55, 57, 59, 60} \end{array}\] 再分別找出上下兩部份的中位數 \begin{align*} Q_1 = \hbox{下半部份的中位數} = \frac{51+52}{2}=51.5 \\ Q_3 = \hbox{上半部份的中位數} = \frac{57+59}{2} = 58 \end{align*} 所以,\(S_2\;\)的四分位數間距為 \[ \hbox{四分位數間距} = 58-51.5 = 6.5 \]

  1. 比較兩組數據的分佈域,可見\(\;S_1\;\)的分佈域比\(\;S_2\;\)的大,所以\(\;S_1\;\)的離差較大。
  2. 比較兩組數據的四分位數間距,可見\(\;S_2\;\)的四分位數間距比\(\;S_1\;\)的大,所以\(\;S_2\;\)的離差較大。
  3. (以下答案僅供參考,任何言之成理的答案均可接受。)

    我們在兩部分所得的結論並不一致。由於\(\;S_1\;\)包括一個極端數據\(\;100\),所以其分佈域較大,但撇除極端數據後,\(\;S_2\;\)的離散程度就較\(\;S_1\;\)高,所以\(\;S_2\;\)的四分位數間距比\(\;S_1\;\)的大。

下表為某班\(\;40\;\)名學生在一次考試中的成績,求它的四分位數間距。


首先把這組數據從小至大排列:

它的四分位數間距為 \[ \hbox{四分位數間距} = \frac{67+69}{2} - \frac{44+42}{2} = 68 - 43 = 25 \]

分組數據

我們可以利用分組數據的累積頻數多邊形(或累積頻數曲線)來讀出該組數據的四分位數,其中

  • 下四分位數(lower quartile, \(Q_1\)):它是對應總頻數\(\;25\%\;\)的值;
  • 第二四分位數(median, \(Q_2\)):即中位數,它是對應總頻數\(\;50\%\;\)的值;
  • 上四分位數(upper quartile, \(Q_3\)):它是對應總頻數\(\;75\%\;\)的值。

跟不分組數據的情況相同,四分位數間距就是上四分位數和下四分位數之差,即

\[ \hbox{四分位數間距} = Q_3-Q_1 \]

注意

  1. 和中位數的情況類似,即使頻數的\(\;25\%\;\)或\(\;75\%\;\)不是整數,數據的四分位數依然是它的對應值。
  2. 從圖像讀出的四分位數只是近似值,而非準確值。

若把不分組數據的例子二中之數據分組,可得下表:

要找出它的四分位數間距,我們先繪畫它的累積頻數多邊形。

數據總數為\(\;40\),在累積頻數多邊形中,\(y=30\;\)對應\(\;x=68.25\),而\(\;y=10\;\)對應\(\;x=41.5\)。所以,這組數據的四分位數間距為 \[ \hbox{四分位數間距} = 68.25 - 41.5 = 26.75 \]

注意 比較不分組數據的例子二和這裡的結果,可見把數據分組會影響它的四分位數間距。

分佈域和四分位數間距的不足

由於分佈域和四分位數間距都是以數據組中的幾項數據來計算,並沒有把所有數據都納入考慮範圍,因此以這兩種方法來量度離差有其不足之處。以下讓我們來探討一下它們的不足。

考慮數據組 \begin{align*} S_1 &= \{ 1,2,3,4,5,5,6,7,8,9 \} \\ S_2 &= \{ 1,3,3,5,5,5,5,7,7,9 \} \end{align*}

已知\(\;S_1\;\)和\(\;S_2\;\)的集中趨勢相同,我們考慮兩組數據的離差。

  1. 試完成下表。

    \(S_1\) \(S_2\)
    最小值
    下四分位數
    中位數
    上四分位數
    最大值
    分佈域
    四分位數間距

上一節
返回