第19講 掌握相關性

2024-09-26 12:10:10 作者: 日本顧彼思商學院

  相關性是計算機擅長的範疇。此外,因AI而成為主流的機器學習,其框架背後也蘊藏著相關性的思路。今後,能夠理解相關性會變得越來越重要。那麼,「相關性」是什麼?應該怎麼運用呢?

  假如你在人才開發部工作,現在需要考慮今後的研修事宜。首先,你為了從日前進行的公司內部能力測試結果中,找出邏輯思考能力和溝通能力的相關性,製作了散點圖(橫軸是邏輯思考能力的分數,縱軸是溝通能力的分數)。

  A、B、C、D中的哪一個圖可以推斷出邏輯思考能力越高,溝通能力就越高呢?A、B、C、D中的哪一個圖可以說明邏輯思考能力與溝通能力沒什麼關係呢?

  如果邏輯思考能力與溝通能力有相關性,那麼邏輯思考能力提升的話,溝通能力也會提升;反之,邏輯思考能力降低的話,溝通能力也降低。也就是說,圖表會呈現出數據分布朝右方上揚的現象。

  數據分布朝右方上揚而且數據比較均衡集中的是圖A,圖A可以說明邏輯思考能力與溝通能力之間存在相關性。圖B的數據也是朝右方上揚,但與圖A相比,數據稍微分散。

  而圖D整體的數據比較分散,有邏輯思考能力高但是溝通能力低的人,也有溝通能力高但是邏輯思考能力低的人,可以初步認為邏輯思考能力和溝通能力之間沒什麼關係。圖C與圖D相比,也能夠看出數據分布稍微朝右方上揚,但趨勢與圖A、圖B相比稍微偏弱。

  現在先說明一下相關性。如果某個要素X發生變化時,另一個要素Y也隨著X的變化而發生變化,我們就說這兩個要素有相關性。

  如果隨著X的增加,Y也增加的話,就叫正相關;如果隨著X的增加,Y減少的話,就叫負相關。

  

  如果邏輯思考能力與溝通能力有相關性,就意味著會呈現出邏輯思考能力高的人溝通能力也高的趨勢。

  判斷有無相關性的指標叫作相關係數(用R來表示),根據相關係數的不同,可以做出以下的解釋(正相關的情況)。

  ·0.9及以上 有非常強的相關性

  ·0.7~0.9  有強相關性

  ·0.5~0.7  有相關性

  ·0.3~0.5  有弱相關性

  ·不到0.3  沒有相關性

  上述圖A至圖D的散點圖的情況是,相關係數分別為0.9、0.7、0.5、0.3,圖A有非常強的相關性,圖B有強相關性,圖C有相關性,圖D有弱相關性。

  相關係數通過計算軟體可以直接計算出來,但是請務必遵循以下2個要點。

  1. 描繪散點圖

  2. 在此基礎上,計算相關係數

  1. 描繪散點圖

  請在計算相關係數之前,先描繪散點圖。通過視覺能夠獲得的信息量是極大的,建議大家通過觀察去了解數據的分布趨勢。要確認是「朝右方上揚」還是「朝右方下降」,或者「是否不均衡」。

  此外,有時候數據還會分布成幾個組。這些情況如果只看相關係數的數值是無法判斷的。

  2. 在此基礎上,計算相關係數

  通過散點圖知道了趨勢之後,請務必確認相關係數的數值。

  以下的兩個散點圖,相關係數都是「0.5」,但它們分布的情況有所不同。

  練習題1

  現在要確認店鋪的工作人員人數與銷售額(每家店)是否存在相關性。

  X軸是店鋪工作人員的人數,Y軸是每家店每月的銷售額(單位:百萬日元)。請思考,根據以下的散點圖,可以如何進行解釋?

  解答

  從散點圖來看,可以看出數據分布朝右上揚的趨勢,但是不明顯。另外,相關係數是0.4,也不是一個高的數值。因此,可以解釋為,工作人員的人數與銷售額沒有太大的相關性,工作人員的人數多,銷售額也不一定高。

  練習題2

  那麼,如果是下圖的話,可以怎樣解釋呢?

  解答

  這個圖表的數據分布呈現朝右方上揚的趨勢,相關係數是0.8,是較高的數值。因此,可以解釋為,如果店鋪工作人員的人數多,銷售額就會提升。

  其實剛才確認的兩個圖表,原始數據是相同的,不同的是有沒有納入以下這兩個數據。

  即店鋪工作人員的人數多,銷售額卻不高的X店;以及店鋪工作人員的人數少,但銷售額卻很高的Y店。

  把這兩家店作為離群點從數據中剔除的話,就可以認為整體的趨勢是工作人員人數與銷售額有相關性。

  這樣的話,接下來要思考的就是,把這兩家店作為離群點與其他數據分開來看是否合適。

  那麼,我們試想一下,在怎樣的情況下會出現人數多但銷售額不高(X店),以及人數少但銷售額較高(Y店)的情況呢?

  (X店)

  團隊合作不佳

  店長剛剛變更,經營方針落實得不徹底

  雖然人數多,但有幾個人實質上並沒有在工作等

  (Y店)

  人數雖然少,但其中有經驗的人較多,接待顧客的技巧非常高

  得益於店長的經營技巧,下了一些有別於其他店鋪的功夫

  有地方優勢,如顧客流量高等

  造成與其他店鋪情況不同的趨勢,可能存在多個原因。如果對剛才羅列出來的可能性進行充分驗證後,發現確實存在上述某些情況,就可以把X店和Y店作為離群點剔除。剔除了X店和Y店以後的散點圖,就可以代表整體趨勢。

  我們能夠發現離群點,是因為如上述所言,通過描繪散點圖,得以從視覺上獲取信息。從表格中的數據去識別離群點雖然也可行,但數據量增加後就會變得困難。這就是在直接計算相關係數之前要先描繪散點圖的原因。

  在剔除離群點的時候,可以從以下三個角度來考慮。

  ·在散點圖上,把視覺上看起來與其他數據的集合分離開來

  ·離群點的數量與總數相比並不多

  ·有定性的理由可以支持剔除離群點

  初期的數據,有可能是偶然獲取的,需要判斷是否應該用一個數據來代表整體的情況。

  STEP UP!

  為了驗證氣溫與到店顧客數有關聯性的假設,製作了如下散點圖。橫軸是氣溫,縱軸是單日平均到店的顧客數。對此可以進行怎樣的解釋呢?

  相關係數是0.5。雖然不是很高的數值,但也可以考慮氣溫與到店顧客數存在相關性。

  另一方面,請思考一下氣溫與到店顧客數本身是如何變化的。可以想像,寒冷與炎熱的時候顧客數都會減少。

  所以應該考慮的不是「氣溫與到店顧客數是否相關」,而是「是否存在某個具體溫度值會使到店顧客數增加」。

  人們一有數據可能就會想轉化為圖表,並且考慮根據圖表進行解釋。然而,如果不加注意,就會變成一切以圖表為準,變成解釋圖表了。

  為了避免這種情況發生,在進行圖表化之前,要先考慮清楚數據之間的相關性,再轉化為圖表。

  剛才的散點圖是以所有的數據為基礎製作的,但其實應該把某個氣溫以前的趨勢和某個氣溫以後的趨勢分開,轉化成兩個散點圖,這樣更符合自然規律。

  實際以25℃為界,把25℃以下的情況和25℃以上的情況區分開來描繪成散點圖,得出以下圖表。相關係數的絕對值都是0.95,是非常理想的值。

  相關係數只是一種指標,重要的是要結合定性的意義來思考。在應用時,要考慮哪個範圍的數據可以視作同一範疇的。要做到這一點的話,「描繪圖表,用頭腦來判斷」很重要。而且,這樣的判斷,事實上只有人才能做到。

  描繪散點圖,將相關係數的計算交給計算機,另一方面,要清楚知道人應該思考什麼事情,要靈活地運用相關性。

  小結

  √ 相關性的計算是計算機擅長的範疇

  √ 不單單依賴於相關係數,這點很重要,務必描繪出散點圖來觀察

  √ 在描繪散點圖之前,認真思考可能會出現怎樣的分布

  √ 沒必要對所有的信息一律用相同的方法來處理。可以剔除離群點,也可以把數據分組

  √ 定性的解釋也很重要


關閉