第一節 分佈域

在上一課,我們看過以下的例子:

上表為兩款產品的一周銷量。我們曾計算它們的集中趨勢,發現兩款產品的銷量平均數(\(4\))、中位數(\(3\))和眾數(\(3\))均相等,所以兩款產品的暢銷程度相同。然而,從資料可見,產品乙在不同日子的銷量較產品甲分散。由此可見,產品甲的銷情比產品乙穩定。

一組數據的分散程度稱為離差(dispersion),常用的離差量度方法有很多種,本節我們會先討論一種非常簡單的量度,稱為分佈域(range)。

分佈域

簡單來說,分佈域就是一組數據的取值範圍有多大。基於數據是否分組,分佈域的計算方法有所不同。

不分組數據

不分組數據的分佈域定義如下:

\[ \hbox{分佈域} = \hbox{最大值} - \hbox{最小值} \]

本節開始時提到的兩個產品銷量之分佈域,現在讓我們來比較一下,從而察看兩個產品銷情的穩定性。

我們有 \begin{align*} \hbox{產品甲銷量的分佈域} &= 6 - 3 = 3 \\ \hbox{產品乙銷量的分佈域} &= 7 - 1 = 6 \end{align*} 產品甲銷量的分佈域較小,因此產品甲的銷情較穩定。

下表為某班\(\;40\;\)名學生在一次考試中的成績,求它的分佈域。


留意這組數據的最大值為\(\;95\),而最小值為\(\;15\),所以其分佈域為 \[ \hbox{分佈域} = 95 - 15 = 80 \]

分組數據

我們無法得知分組數據的最大值和最小值,其分佈域可利用組界來定義:

\[ \hbox{分佈域} = \hbox{最高組別的上組界} - \hbox{最低組別的下組界} \]

求以下分組數據的分佈域。

組區 頻數
\(1-10\) \(0\)
\(11-20\) \(3\)
\(21-30\) \(2\)
\(31-40\) \(0\)
\(41-50\) \(6\)
\(51-60\) \(4\)

提示

注意在考慮分佈域時,我們只會算頻數不是零的組。這些組中,最小的組界為\(\;10.5\),而最大的組界為\(\;60.5\),所以 \[ \hbox{分佈域} = 60.5-10.5 = 50 \]

若把不分組數據的例子二中之數據分組,可得下表:

這些數據的分佈域為 \[ \hbox{分佈域} = 99.5-9.5 = 90 \]

注意 雖然是同一組數據,但這裡算出的分佈域與不分組時不同。所以,把數據分組會影響它的分佈域。

分佈域與極端數據

分佈域的計算非常簡單直接,但由於它的計算只涉及數據組中的兩個資料,所以容易受極端數據影響。考慮以下數據組: \[ S=\{ 51, 52, 54, 55, 55, 57, 57, 58, 60, 100 \} \] 容易算出\(\;S\;\)的分佈域為 \[ S\;\hbox{的分佈域} = 100-51=49 \] 不過,若我們仔細觀察\(\;S\;\)的數據,就會發現大部分數據都集中在\(\;51\;\)至\(\;60\;\)之間,只因為一個極端數據\(\;100\),就令整個分佈域由\(\;9\;\)大幅增至\(\;49\)。

在考慮數據的離差時,若要減少極端數據的影響,可以利用四分位數間距。我們會在下一節討論這個離差量度。

下一節