Open Data:
Mobile App Statistics (Apple iOS app store)
當我們在使用python進行一些基本的資料處理時,很常使用python原生的物件,像是 list() , dict() 去存取及運用資料,但當我們的資料變得複雜的時候,這些原生物件反而顯得有些不便,像是二維陣列的元素計算就是較為複雜的資料形式,每一次的運算可能都要使用多個巢狀迴圈去處理,所以面對這種複雜且大量的資料,我們需要專門處理資料的套件幫我們節省一些作業時間,讓我們可以專心的研究資料內容。
- 使用資料表
Notebook Content:
這次我們會使用apple(AppleStore.csv)的公開資料,其中紀錄了兩個app平台商店中所有app的分類、評分、下載量、名稱、大小⋯⋯等相關資料,假設我們是一間app開發公司的分析人員,我們想研究目前市場中哪些分類的評分以及下載量是比較高的。
我們先利用python原生的方式處理看看,首先第一步就是將csv檔引入並轉換為二維陣列,我們利用 list() 處理:
import csv def openData(file): f = open(file) reader = csv.reader(f) data = [] for e in reader: data.append(e) return data
app = openData("AppleStore.csv") print(app)
我們先定義了一個函式,函式功能是開啟指定檔名的檔案並透過 csv 套件讀取csv檔中的每一行資料作為陣列然後將每一個陣列透過 append() 方法加入名為 data 的陣列,最後回傳 data 。所以我們將資料 AppleStore.csv 透過這個函式存取為變數 app 然後將他 print() 出來。
[['id', 'track_name', 'size_bytes', 'currency', 'price', 'rating_count_tot', 'rating_count_ver', 'user_rating', 'user_rating_ver', 'ver', 'cont_rating', 'prime_genre', 'sup_devices.num', 'ipadSc_urls.num', 'lang.num', 'vpp_lic'], ['284882215', 'Facebook', '389879808', 'USD', '0.0', '2974676', '212', '3.5', '3.5', '95.0', '4+', 'Social Networking', '37', '1', '29', '1'], ['389801252', 'Instagram', '113954816', 'USD', '0.0', '2161558', '1289', '4.5', '4.0', '10.23', '12+', 'Photo & Video', '37', '0', '29', '1'], ['529479190', 'Clash of Clans', '116476928', 'USD', '0.0', '2130805', '579', '4.5', '4.5', '9.24.12', '9+', 'Games', '38', '5', '18', '1'], ['420009108', 'Temple Run', '65921024', 'USD', '0.0', '1724546', '3842', '4.5', '4.0', '1.6.2', '9+', 'Games', '40', '5', '1', '1'],......]
從上面的結果可以看到,我們得到了一個二維陣列,其中的第一個 list() 是欄位名稱,從第二行開始為每一筆資料。雖然我們成功獲得了每一筆資料,但這樣的資料易讀性極低,即使透過迴圈將每一筆資料分開列印,依然會因為字串長短導致同一欄的資料卻在不同位置使我們很難分析資料。
這時我們試試看 pandas 套件做同樣的事情,我們將資料透過 pd.read_csv(filename) 方法將資料存取為變數 app 並利用 df.head() 指定顯示 app 的前五筆資料,然後把他 print() 出來:
import pandas as pd app = pd.read_csv('AppleStore.csv') app.head(5)
id track_name size_bytes currency price 0 284882215 Facebook 389879808 USD 0.0 1 389801252 Instagram 113954816 USD 0.0 2 529479190 Clash of Clans 116476928 USD 0.0 3 420009108 Temple Run 65921024 USD 0.0 4 284035177 Pandora - Music & Radio 130242560 USD 0.0 rating_count_tot rating_count_ver user_rating user_rating_ver ver 0 2974676 212 3.5 3.5 95.0 1 2161558 1289 4.5 4.0 10.23 2 2130805 579 4.5 4.5 9.24.12 3 1724546 3842 4.5 4.0 1.6.2 4 1126879 3594 4.0 4.5 8.4.1 cont_rating prime_genre sup_devices.num ipadSc_urls.num lang.num 0 4+ Social Networking 37 1 29 1 12+ Photo & Video 37 0 29 2 9+ Games 38 5 18 3 9+ Games 40 5 1 4 12+ Music 37 4 1 vpp_lic 0 1 1 1 2 1 3 1 4 1
從上面的結果可以發現,pandas 會將所有欄位對齊,讓我們可以更容易的區分不同欄位的資料,如果配合使用 jupyter notebook軟體,甚至可以讓資料以表格的方式顯示:
剛才提到的jupyter notebook是一個可以讓我們更方便進行資料分析的軟體,這個軟體可以將程式碼分段執行,因為我們在進行資料分析的時候,不會像在執行程式開發時把所有程式碼打包好一次執行,而是分段進行,像是先導入資料、確認資料欄位的關係、分欄位進行資料清理、進一步分析、視覺化⋯⋯等,會經過多個不同的步驟,而且每一個步驟的結果都需要進行確認,所以如果是對資料分析領域有興趣的朋友,我都蠻推薦使用這個軟體的~
接下來讓我們來透過資料 app 介紹 pandas 套件的各種方法與功能吧:
Pandas套件 – 資料儲存形式
pd.DataFrame() 二維資料 (官方document):
首先我們先來介紹 pandas 套件用來存取資料的兩個重要物件,第一個是 DataFrame() ,這是一個二維資料的物件,也就是剛才上面示範的那張表格圖,也可以把它理解為一張有欄跟列的表格。通常我們使用像是 pd.read_csv() 這類方法引讀取資料時,pandas 都會將資料讀取並轉換為DataFrame() 物件,像是下面這樣:
import pandas as pd app = pd.read_csv('AppleStore.csv') app.head(5)
除了可以透過 pd.read_csv() 這類方法讀取資料,pandas 套件也能直接利用pd.DataFrame() 把二維的 list() 轉換為 DataFrame() 物件,不過需要另外設定其中的屬性:
data = [['a','b','c','d'],[0,1,2,3],[12,44,15,74],[5,2,8,1]] df = pd.DataFrame(data=data[1::], columns=data[0],index=[1,2,3]) print(df)
a b c d 1 0 1 2 3 2 12 44 15 74 3 5 2 8 1
我們建立一個二維陣列 data ,其中第一個陣列是欄位名稱「a,b,c,d」,剩下的陣列則是每一筆資料,然後使用pd.DataFrame() 建立二維資料物件,設定參數 data 為第二個到最後一個陣列,然後 columns 則是第一個陣列,參數 columns是設定欄位的名稱,引入值需要是陣列,然後列的編號也是可以設定的,只要設定參數 index 就可以了,如果沒有特別設定,index 預設為從零開始的數字列,這就是將二維陣列轉換為 DataFrame() 物件的基本方法,當然還有一些細部的參數調整可以點選這個連結參閱 pandas官方的文件。
pd.Series() 一維資料 (官方document):
當然,有二維資料就有一維資料,就像是點線面的關係一樣,如果二維資料是「面」,那物件Series() 就是組成二維資料的每一條「線」,你可以把它當作是每一列資料或是欄位,像是上面的第一筆資料就是一個 Series() ,我們利用一些方法選定 DataFrame() 的其中一筆或是每個欄位的資料時,pandas 就會回傳Series()物件,而選定資料的方法我們在之後會提到,我們現在先試試看從資料 app 挑選第一筆資料試試。
print(type(app.loc[0,:])) #顯示第一筆資料的型別 print(app.loc[0,:])
<class 'pandas.core.series.Series'> #型別為:Series id 284882215 track_name Facebook size_bytes 389879808 currency USD price 0 rating_count_tot 2974676 rating_count_ver 212 user_rating 3.5 user_rating_ver 3.5 ver 95.0 cont_rating 4+ prime_genre Social Networking sup_devices.num 37 ipadSc_urls.num 1 lang.num 29 vpp_lic 1 Name: 0, dtype: object
上面我們是使用了df.loc[:,:] 的方法去定位資料,這個方法有點像是 list() 的slice功能,只是他的用法是在DataFrame() 後面加上.loc 然後用中括號定位你要的資料,詳細的使用方法我們之後會再介紹,剛才我們是提取了單筆列資料,我們現在試試看提取欄位 track_name 的資料:
print(type(app.loc[:,'track_name'])) #顯示欄位track_name資料的型別 print(app.loc[:,'track_name'])
<class 'pandas.core.series.Series'> 0 Facebook 1 Instagram 2 Clash of Clans 3 Temple Run 4 Pandora - Music & Radio 5 Pinterest 6 Bible 7 Candy Crush Saga ......
當然,pd.Series() 也可以將 list() 資料轉換為 Series() 物件,方法跟 DataFrame() 差不 多,不過 Series() 沒有參數 columns ,只有 index ,像是下面我們將陣列 arr 轉換為物件 Series() ,並且設定參數 index=[‘a’,’b’,’c’,’d’,’e’,’f’] ,所以可以在結果看到左邊的 列名稱變成了 a,b,c,d,e,f:
arr = [1,2,3,4,5,6] series = pd.Series(data=arr,index=['a','b','c','d','e','f']) print(series)
a 1 b 2 c 3 d 4 e 5 f 6 dtype: int64
以上是一維資料的基本轉換與屬性用法,其他詳細的參數調整可以參閱這個連結的官網文件。
目前我們大致介紹了 pandas 套件最主要的兩個資料存取物件,而之後所有的資料處理方法都會圍繞著這兩個物件,不管是讀取資料、計算、修改、型別轉換、建立統計列表、視覺化⋯⋯等方法都會與這兩個物件有關係,所以建議多練習,熟練這兩個物件的參數使用,才不會在之後使用其他資料處理方法時因為不清楚現在的資料型別而導致出現 error 。
Written by
Glove Yen
一個不務正業的企管人,喜歡有創造性的事物,從管理到設計到程式,目前正在鑽研資料科學以及網頁前端開發,不知從什麼時候開始已經習慣了每天coding的日子。
—轉自好文作者Glove Yen_Data Science_Python資料處理套件part1-Pandas資料儲存物件
如果你喜歡他的文章、Python資料分析有興趣,歡迎回到他的Blog: glove-coding看更多:)
或接續觀看Pandas 第3講:Python資料處理套件Pandas檢視與定位資料
📒 Python Pandas 系列文章:
Pandas 第1講:Python資料處理套件Pandas簡介
Pandas 第2講:Python資料處理套件Pandas資料儲存物件(本文)
Pandas 第3講:Python資料處理套件Pandas檢視與定位資料
Pandas 第4講:Python資料處理套件Pandas條件篩選資料
Pandas 第5講:Python資料處理套件Pandas整理資料欄位與型別
Pandas 第6講:Python資料處理套件Pandas 資料字串處理
Pandas 第7講:Python資料處理套件Pandas數值處理與基礎統計量
快樂學程式在Udemy 也推出了以Pandas 套件進行資料處理的實戰課程,這次是將Python已視覺化的方式
對資料進行解析,只要一個假日拉高你的職場競爭力!快來這裡一起快樂學程式!
如果你的入門還在單打獨鬥,歡迎來到快樂學程式找到志同道合的夥伴,你的自學之路不孤單。