Pandas 第7講：Python資料處理套件Pandas數值處理與基礎統計量

上一篇文章主要介紹如何利用pandas處理字串資料，而這章節的會著重於數值的資料處理以及顯示基礎統計量的方法。在資料分析中，數值資料是非常常見的，而且對於後續的深入分析而言，數值資料能夠讓我們進一步利用推論統計檢定許多因素與目標的關聯性，幫助我們能夠利用檢定結果進行決策，或是發現夠深入的趨勢。

這次我們會使MLB美國職棒大聯盟的各隊歷年統計數據（mlb_team.csv）的公開資料，其中記錄了美國職棒大聯盟從西元1871年至今的各球隊數據，因為最近正好碰到需要分析棒球的運動相關數據，且這份資料大部分的欄位都是數值欄位，正好適合這篇文章主題。

讀取資料：

import pandas as pd

mlb_teams = pd.read_csv("mlb_team.csv",encode="UTF-8")
mlb_teams.head()

向量處理 Vectorize Operations

之前的文章中有提到Pandas是利用向量處理的方式進行資料處理的，所以我們在進行數值運算的時候都是針對單一個欄位將欄位中的所有數值進行相同的運算，如果要針對特定條件的數值進行運算，則需要先進行資料篩選再進行數值處理。

基本上在利用Pandas進行數值運算時，跟我們一般在寫Python計算一樣，只是平常用於運算的變數變成了 DataFrame 物件或是 Series 物件，所以所有Python中的數學運算符，在Pandas都可以直接使用：

s = pd.Series([1,2,3,4,5,6,7,8,9])
s+11
s-10
s*5
s**2
s/2
s//3

有一個比較特別的地方是，Pandas因為是基於Numpy套件之上，所以他也可以進行矩陣乘法：

s*[9,8,7,6,5,4,3,2,1]

結果：

0     9
1    16
2    21
3    24
4    25
5    24
6    21
7    16
8     9
dtype: int64

所以記得在進行Pandas數值運算時有一個原則，一次只針對單一個欄位或 Series 進行運算，因為如果是使用多欄位進行運算，系統會直接執行矩陣運算，結果可能會跟一般的簡單計算有些不同，像是上面的code就是將原本的 Series 與另一個矩陣 [9,8,7,6,5,4,3,2,1] 進行矩陣相乘。

p.s. 因為篇幅關係這邊就不另外介紹矩陣運算，如果有興趣的朋友可以自行搜尋：矩陣運算，有非常多教材針對這方面進行講解，矩陣的概念應用層面非常廣，甚至可以是非常複雜的多維運算，像是在機器學習的領域就很常使用到矩陣運算的相關知識。

現在讓我們回到資料處理上，假設我們會需要探討棒球團隊中投打數據與勝率的關係，但資料中並沒有打擊率以及球隊勝率，所以我們需要將勝場除以比賽場次作為勝率欄位（win_odd），並將安打數除以打擊次數作為打擊率欄位（bav）：

teams = mlb_teams.copy()  #我們將原始資料進行拷貝作為新變數，以免原始資料遺失
teams['win_odd'] = teams['W'] / teams['G']  #計算勝率
teams['bav'] = teams['H'] / teams['AB']  #計算打擊率

在進行數值運算時我會建議不要將原本的欄位資料覆蓋掉，應該另外新增一個欄位存取運算後的資料，畢竟我們再進行資料處理基本上都不希望原始資料的遺失，所以這邊我們的處理是將計算得到的勝率與打擊率分別存取為欄位 win_odd 與 bav。

除了基本的數學運算符以外，Pandas中Series物件也整合了許多Python原生的數值處理方法，像是取絕對值、小數點後四捨五入、取次方值⋯⋯等數值處理方法也可以在Series物件中直接使用：

s = pd.Series([1,2,3,4,5,6,7,8,9])
s.abs()  #取絕對值
s.round(2)  #取至小數點後第二位四捨五入
s.pow(.5)  #計算Series中所有數值的二分之一次方（平方根）

除了這些數值運算，我也可以利用Pandas中的方法輕鬆求得各種簡單統計值，並利用這些統計值初步理解該欄位的資料狀況，像是我們在第二章所提到的 DataFrame/Series.describe() 數值就會顯示該欄位的所有統計值，而我們除了使用 describe() 以外，也可以單獨使用特定方法取得這些統計值，像是 mean() 、std() 、median() ⋯⋯等方式：

s.mean()  #4.678888888888888 (平均數)
s.median()  #6.0 (中位數)
s.count()  #9 (資料筆數)
s.std()  #4.741625365959558 (標準差)
s.quantile(0.25)  #2.0 (第一四分位數->Ｑ1)
s.quantile(0.8)  #8.4 (第80百分位數)

這些統計值除了可以讓我們判斷資料趨勢以外，也可以拿來進行資料運算，比如說，在統計學上有一種方法叫標準化，假設有一筆資料最小值與最大值是從0~10，但另一筆資料卻是0~100，在未處理的情況下我們很難直接透過基礎統計值去比較這兩者的資料趨勢，需要將兩者的尺度變的一樣才能進行比較，這就是標準化所做的事情，透過標準化，我們可以把不同尺度的資料化為相同的尺度進行比較，而標準化的公式為：(資料值-平均數) / 標準差。

假設我們現在想比較多倫多藍鳥隊的歷年打擊率波動與防禦率波動程度，但打擊率的全距為0到1，而防禦率數值大部分都是大於1，在這樣的情況下想要直接比較兩者波動程度是比較困難的，這時候標準化就可以讓我們比較容易將兩種資料進行比較：

"""定義標準函式:"""
"""將Series作為參數並回傳進行標準化後的資料"""
def Standard(series):
    mean = series.mean()
    std = series.std()
    return (series-mean)/std

zbav = Standard(teams[teams['teamID']=='TOR']['bav'])
zERA = Standard(teams[teams['teamID']=='TOR']['ERA'])

顯示標準化後的資料統計值：(打擊率)

zbav.describe()

count    4.200000e+01
mean     2.579947e-15
std      1.000000e+00
min     -2.821207e+00
25%     -7.626525e-01
50%      6.075536e-02
75%      6.492234e-01
max      1.936894e+00
Name: bav, dtype: float64

顯示標準化後的資料統計值：(防禦率)

zERA.describe()

count    4.200000e+01
mean     1.596606e-15
std      1.000000e+00
min     -2.031696e+00
25%     -7.872363e-01
50%     -2.949831e-02
75%      7.558943e-01
max      2.016947e+00
Name: ERA, dtype: float64

從結果可以看到，多倫多藍鳥隊歷年的打擊率波動相較於防禦率是比較大的，透過這些的結果我們也可以繼續進行研究方向的延伸，例如說研究藍鳥隊打擊率與勝率的關係，或是進一部探討防禦率與打擊率的對於球隊奪冠機率的影響。

Written by