第12講 把握不均衡
2024-09-26 12:09:32
作者: 日本顧彼思商學院
數據的分布存在不均衡的情況,能夠反映這種不均衡程度的指標就是標準差。另外,對某個值的評價,會隨著不均衡程度的不同而變化。那麼,標準差是怎麼計算的呢?應該如何去應用呢?
用於描述不均衡的指標是標準差。這是用來反映數據整體的分布如何分散或者如何集中的值。首先說明一下它是怎麼計算的。
假設我們對某項知識進行問答測試後,得出圖1和圖2的結果。
圖1的平均分是60分,最低分是40分,最高分是80分。
圖2的平均分是60分,最低分是20分,最高分是100分。
圖1的數據整體分布,在60分的位置出現峰值,數據都分布在靠近60分的地方。雖然圖2的平均分也是60分,數據的峰值也在60分附近,但從數據均衡性的角度來看,與圖1相比,其山腳位置分布更加廣泛。用數值來表現這種分布的差異,就是標準差。
圖1的標準差計算如下。
離散程度(與平均數之差的平方的和)
=(-20)×(-20)×1
+(-10)×(-10)×4
+(0)×(0)×6
+(10)×(10)×4
+(20)×(20)×1
= 1600
方差(除以數據個數)
= 1600÷(1+4+6+4+1)
= 100
標準差(計算平方根)
= 10
同樣地,圖2的標準差計算如下。
離散程度(與平均數之差的平方的和)
=(-40)×(-40)×1
+(-30)×(-30)×1
+(-20)×(-20)×1
+(-10)×(-10)×3
+(0)×(0)×4
+(10)×(10)×3
+(20)×(20)×1
+(30)×(30)×1
+(40)×(40)×1
= 6400
方差(除以數據個數)
= 6400÷(1+1+1+3+4+3+1+1+1)
= 400
標準差(計算方根)
= 20
綜上所述:
圖1的平均分是60分,最低分是40分,最高分是80分,標準差是10。
圖2的平均分是60分,最低分是20分,最高分是100分,標準差是20。
標準差越大,表示不均衡的程度越高。
圖1的標準差是10,圖2的標準差是20,只靠平均數無法表達不均衡的程度,通過標準差表現出來了。標準差的計算有3個要點。
1. 計算離散程度(距離平均數有多遠)
2. 計算方差(除以樣本數)
3. 計算平方根
接下來,我們逐一來確認。
1. 計算離散程度(距離平均數有多遠)
我們用圖2來計算。首先,100分的有1人,100分距離平均分60分的差值是40分。
計算標準差時,要計算離散程度值的平方。計算平方值以後,對比平均數,離散程度值的影響會變大。具體的計算是,離散程度值的平方數,40×40=1600,屬於這個分差的有1人,即1個數據,所以1600×1=1600。
接下來,我們試試計算70分的離散程度。
其距離平均分60分的差值是10分,離散程度是10×10=100。
同時,70分的有3人,所以100×3=300。
按照這個方法,20分的有1人,30分的有1人,……,100分的有1人,計算所有數據的情況。
離散程度(與平均數之差的平方的和)就是:
=(-40)×(-40)×1
+(-30)×(-30)×1
+(-20)×(-20)×1
+(-10)×(-10)×3
+(0)×(0)×4
+(10)×(10)×3
+(20)×(20)×1
+(30)×(30)×1
+(40)×(40)×1
= 6400
2. 計算方差(除以樣本數)
通過步驟1,我們知道離散程度的總和是6400。接下來除以樣本數,計算出離散程度的平均數。這次有16人的數據,所以,
6400÷(1+1+1+3+4+3+1+1+1)
= 400
這個400就叫作「方差」。
3. 計算平方根
離散程度通過方差得以表現,但這是利用與平均數之差的平方值算出來的數字,為了恢復到原來數字的維度,我們求出平方根。
這就是標準差。
接下來,我們學習如何使用標準差進行數據解釋。
假設圖1是邏輯思考能力的測試,圖2是溝通能力的測試,員工A的成績是,邏輯思考能力70分,溝通能力也是70分。
那麼,員工A的邏輯思考能力和溝通能力,哪種能力的成績更好呢?
我們知道剛才的圖表的情況,但在實際的商務場景中,我們往往有可能會拿到上述的數據,並需要對其進行解釋。因此,重要的是能夠根據員工A的成績、平均分、標準差的數據,對員工A的成績進行評價。我們來實際進行一下評價。
首先,考慮與平均分之差。不管是邏輯思考能力還是溝通能力的測試,平均分都是60分,員工A的成績都是70分,兩者都比平均分高10分。從與平均分的差異來解讀,邏輯思考能力和溝通能力之間無法區分優劣。
接下來,加上標準差來進行評價。邏輯思考能力的標準差是10,溝通能力的標準差是20,這表示邏輯思考能力測試成績的不均衡程度比較低。也就是說,數據集中在60分附近,得到30分、40分或80分、90分等分數的人不多。
另一方面,溝通能力測試的標準差是20,比邏輯思考能力的標準差大。這表示,數據的不均衡程度較高,較多人的分數與平均分60分拉開了距離。
這樣一來,雖然員工A的分數同樣都是70分,但邏輯思考能力的成績是在較多人的成績集中在平均分60分的情況下拿到的70分,溝通能力的成績是在較多人的成績遠離60分的情況下拿到的70分。因此,如果要說哪一項更優秀的話,那麼可以認為邏輯思考能力測試的成績更為優秀。
練習題
銷售1科和銷售2科是互為競爭對手的銷售科。某月,銷售1科、銷售2科的銷售額平均數均為200萬日元。另外,人均銷售額的標準差情況是,銷售1科為10萬日元,銷售2科為20萬日元。
假設銷售1科員工A的銷售額是220萬日元,銷售2科員工B的銷售額是230萬日元,那麼如何判斷誰的銷售業績更好呢?請通過平均銷售額和標準差來思考。
解答
銷售1科員工A的銷售額是220萬日元。
220萬日元(員工A的銷售額)-200萬日元(銷售1科的平均銷售額)= 20萬日元
因為銷售1科的平均銷售額是200萬日元,所以員工A的銷售成績比平均數高20萬日元。
此外,銷售1科的標準差是10萬日元。
20萬日元÷10萬日元 = 2
相當於員工A的銷售成績達到了標準差2倍的位置。
同理,計算員工B的情況。銷售2科員工B的銷售額是230萬日元。
230萬日元(員工B的銷售額)- 200萬日元(銷售2科的平均銷售額)= 30萬日元
因為銷售2科的平均銷售額是200萬日元,所以員工B的銷售額比平均數多30萬日元。
此外,銷售2科的標準差是20萬日元。
30萬日元÷20萬日元 = 1.5
相當於員工B的銷售成績達到了標準差1.5倍的位置。
銷售額方面,比起員工A的220萬日元,員工B的230萬日元更多,從與平均數之差來看,員工A是20萬日元,員工B是30萬日元,也是員工B的比較多。單從金額來評價的話,看起來是員工B的銷售業績更好。
然而,如果考慮標準差的話,員工A的銷售額達到標準差2倍的位置,員工B的銷售額達到標準差1.5倍的位置,從數據不均衡程度的角度來看,可以得出員工A的銷售業績更好。
如上所述,單純從銷售額、與平均數的差額等角度無法看出的意義,可以通過標準差獲知。
STEP UP!
最後,請看一看下面的例子。
我們來考量360度評價的結果。員工X和員工Y都有8位同事,他們的合作精神評價(5階段評價)的平均分如下表所示。從結果可以說明什麼問題呢?
他們的平均分都是4分,可以做出同等程度的評價,但標準差方面,員工X是0.5分,員工Y是1.5分,數值不同。員工X的標準差0.5比較小,說明平均分4分附近的數據比較多;員工Y的標準差比較大,可以推測數據分布比較不均衡。而且,如果平均分是4分,最高分是5分的話,估計打低分的人有不少。
下面的圖表分別展示了平均分為4、標準差為0.5,以及平均分為4、標準差為1.5的例子。
從這個圖表來看,可以說明,「員工X無論和誰一起共事都能發揮合作精神,團隊成員對他的評價沒有太大的差異;另一方面,員工Y的合作則存在一定的特徵,呈現出喜歡他的人很喜歡他,跟他合不來的人就沒法合作的趨勢」。
另外,從數學的角度來說,不管數據的不均衡程度如何,平均數±(標準差)×2的範圍內,必定存在整體的四分之三以上的數據,這點已被證明。知道這一點的話,就可以以平均數和標準差為線索,推斷數據主要存在於哪一個範圍。
在本次的例子中,員工X的平均分是4分,標準差是0.5,那麼標準差的2倍就是1,所以4±1,即3~5分應該是包含了整體數據的75%以上。另一方面,員工Y的平均分是4分,標準差是1.5,那麼標準差的2倍就是3,本來理論上是1~7分包含了整體數據的75%以上,但由於上限是5分,所以從數據不均衡的角度來看,可以推斷很可能存在極端低分的數據。
數據不均衡程度的指標會告訴我們單從平均數無法看出的數據分布情況,希望大家能夠靈活運用它進行充分的解釋。
小結
√ 不均衡程度是用於表示數據總體分布(分散程度)的指標
√ 通過平方計算,使離散程度有效體現
√ 標準差越大,數據越分散;標準差越小,數據越集中
√ 通過平均數和標準差,就有可能對數據進行評價
√ 以標準差為線索,可以推斷數據集中在哪個範圍