Pandas 第2講:Python資料處理套件Pandas資料儲存物件

Open Data:

Mobile App Statistics (Apple iOS app store)

當我們在使用python進行一些基本的資料處理時,很常使用python原生的物件,像是 list() , dict() 去存取及運用資料,但當我們的資料變得複雜的時候,這些原生物件反而顯得有些不便,像是二維陣列的元素計算就是較為複雜的資料形式,每一次的運算可能都要使用多個巢狀迴圈去處理,所以面對這種複雜且大量的資料,我們需要專門處理資料的套件幫我們節省一些作業時間,讓我們可以專心的研究資料內容。

  • 使用資料表

Notebook Content:

這次我們會使用apple(AppleStore.csv)的公開資料,其中紀錄了兩個app平台商店中所有app的分類、評分、下載量、名稱、大小⋯⋯等相關資料,假設我們是一間app開發公司的分析人員,我們想研究目前市場中哪些分類的評分以及下載量是比較高的。

我們先利用python原生的方式處理看看,首先第一步就是將csv檔引入並轉換為二維陣列,我們利用 list() 處理:

import csv
def openData(file):
    f = open(file)
    reader = csv.reader(f)
    data = []
    for e in reader:
        data.append(e)
    return data
app = openData("AppleStore.csv") 
print(app)

我們先定義了一個函式,函式功能是開啟指定檔名的檔案並csv 套件讀取csv檔中的每一行資料作為陣列然後將每一個陣列透過 append() 方法加入名為 data 的陣列,最後回傳 data 。所以我們將資料 AppleStore.csv 透過這個函式存取為變數 app 然後將他 print() 出來。

[['id', 'track_name', 'size_bytes', 'currency', 'price', 'rating_count_tot',
 'rating_count_ver', 'user_rating', 'user_rating_ver', 'ver', 'cont_rating',
'prime_genre', 'sup_devices.num', 'ipadSc_urls.num', 'lang.num', 'vpp_lic'],
['284882215', 'Facebook', '389879808', 'USD', '0.0', '2974676', '212', '3.5',
'3.5', '95.0', '4+', 'Social Networking', '37', '1', '29', '1'], ['389801252',
'Instagram', '113954816', 'USD', '0.0', '2161558', '1289', '4.5', '4.0', '10.23',
'12+', 'Photo & Video', '37', '0', '29', '1'], ['529479190', 'Clash of Clans',
'116476928', 'USD', '0.0', '2130805', '579', '4.5', '4.5', '9.24.12', '9+',
'Games', '38', '5', '18', '1'], ['420009108', 'Temple Run', '65921024', 'USD',
'0.0', '1724546', '3842', '4.5', '4.0', '1.6.2', '9+', 'Games', '40', '5', '1',
'1'],......]

從上面的結果可以看到,我們得到了一個二維陣列,其中的第一個 list() 是欄位名稱,從第二行開始為每一筆資料。雖然我們成功獲得了每一筆資料,但這樣的資料易讀性極低,即使透過迴圈將每一筆資料分開列印,依然會因為字串長短導致同一欄的資料卻在不同位置使我們很難分析資料。

這時我們試試看 pandas 套件做同樣的事情,我們將資料透過 pd.read_csv(filename) 方法將資料存取為變數 app 並利用 df.head() 指定顯示 app 的前五筆資料,然後把他 print() 出來:

import pandas as pd

app = pd.read_csv('AppleStore.csv')
app.head(5)
          id               track_name  size_bytes currency  price  
0  284882215                 Facebook   389879808      USD    0.0   
1  389801252                Instagram   113954816      USD    0.0   
2  529479190           Clash of Clans   116476928      USD    0.0   
3  420009108               Temple Run    65921024      USD    0.0   
4  284035177  Pandora - Music & Radio   130242560      USD    0.0   

   rating_count_tot  rating_count_ver  user_rating  user_rating_ver      ver  
0           2974676               212          3.5              3.5     95.0   
1           2161558              1289          4.5              4.0    10.23   
2           2130805               579          4.5              4.5  9.24.12   
3           1724546              3842          4.5              4.0    1.6.2   
4           1126879              3594          4.0              4.5    8.4.1   

  cont_rating        prime_genre  sup_devices.num  ipadSc_urls.num  lang.num  
0          4+  Social Networking               37                1        29   
1         12+      Photo & Video               37                0        29   
2          9+              Games               38                5        18   
3          9+              Games               40                5         1   
4         12+              Music               37                4         1   

   vpp_lic  
0        1  
1        1  
2        1  
3        1  
4        1

從上面的結果可以發現,pandas 會將所有欄位對齊,讓我們可以更容易的區分不同欄位的資料,如果配合使用 jupyter notebook軟體,甚至可以讓資料以表格的方式顯示:

剛才提到的jupyter notebook是一個可以讓我們更方便進行資料分析的軟體,這個軟體可以將程式碼分段執行,因為我們在進行資料分析的時候,不會像在執行程式開發時把所有程式碼打包好一次執行,而是分段進行,像是先導入資料、確認資料欄位的關係、分欄位進行資料清理、進一步分析、視覺化⋯⋯等,會經過多個不同的步驟,而且每一個步驟的結果都需要進行確認,所以如果是對資料分析領域有興趣的朋友,我都蠻推薦使用這個軟體的~

接下來讓我們來透過資料 app 介紹 pandas 套件的各種方法與功能吧:

Pandas套件 – 資料儲存形式


pd.DataFrame() 二維資料 (官方document):

首先我們先來介紹 pandas 套件用來存取資料的兩個重要物件,第一個是 DataFrame() ,這是一個二維資料的物件,也就是剛才上面示範的那張表格圖,也可以把它理解為一張有欄跟列的表格。通常我們使用像是 pd.read_csv() 這類方法引讀取資料時,pandas 都會將資料讀取並轉換為DataFrame() 物件,像是下面這樣:

import pandas as pd
app = pd.read_csv('AppleStore.csv')
app.head(5)

除了可以透過 pd.read_csv() 這類方法讀取資料,pandas 套件也能直接利用pd.DataFrame() 把二維的 list() 轉換為 DataFrame() 物件,不過需要另外設定其中的屬性:

data = [['a','b','c','d'],[0,1,2,3],[12,44,15,74],[5,2,8,1]]
df = pd.DataFrame(data=data[1::], columns=data[0],index=[1,2,3])
print(df)
    a   b   c   d
1   0   1   2   3
2  12  44  15  74
3   5   2   8   1

我們建立一個二維陣列 data ,其中第一個陣列是欄位名稱「a,b,c,d」,剩下的陣列則是每一筆資料,然後使用pd.DataFrame() 建立二維資料物件,設定參數 data 為第二個到最後一個陣列,然後 columns 則是第一個陣列,參數 columns是設定欄位的名稱,引入值需要是陣列,然後列的編號也是可以設定的,只要設定參數 index 就可以了,如果沒有特別設定,index 預設為從零開始的數字列,這就是將二維陣列轉換為 DataFrame() 物件的基本方法,當然還有一些細部的參數調整可以點選這個連結參閱 pandas官方的文件。


pd.Series() 一維資料 (官方document):

當然,有二維資料就有一維資料,就像是點線面的關係一樣,如果二維資料是「面」,那物件Series() 就是組成二維資料的每一條「線」,你可以把它當作是每一列資料或是欄位,像是上面的第一筆資料就是一個 Series() ,我們利用一些方法選定 DataFrame() 的其中一筆或是每個欄位的資料時,pandas 就會回傳Series()物件,而選定資料的方法我們在之後會提到,我們現在先試試看從資料 app 挑選第一筆資料試試。

print(type(app.loc[0,:]))  #顯示第一筆資料的型別
print(app.loc[0,:])
<class 'pandas.core.series.Series'>  #型別為:Series
id                          284882215
track_name                   Facebook
size_bytes                  389879808
currency                          USD
price                               0
rating_count_tot              2974676
rating_count_ver                  212
user_rating                       3.5
user_rating_ver                   3.5
ver                              95.0
cont_rating                        4+
prime_genre         Social Networking
sup_devices.num                    37
ipadSc_urls.num                     1
lang.num                           29
vpp_lic                             1
Name: 0, dtype: object

上面我們是使用了df.loc[:,:] 的方法去定位資料,這個方法有點像是 list() 的slice功能,只是他的用法是在DataFrame() 後面加上.loc 然後用中括號定位你要的資料,詳細的使用方法我們之後會再介紹,剛才我們是提取了單筆列資料,我們現在試試看提取欄位 track_name 的資料:

print(type(app.loc[:,'track_name']))  #顯示欄位track_name資料的型別
print(app.loc[:,'track_name'])
<class 'pandas.core.series.Series'>
0                                                Facebook
1                                               Instagram
2                                          Clash of Clans
3                                              Temple Run
4                                 Pandora - Music & Radio
5                                               Pinterest
6                                                   Bible
7                                        Candy Crush Saga
......

當然,pd.Series() 也可以將 list() 資料轉換為 Series() 物件,方法跟 DataFrame() 差不 多,不過 Series() 沒有參數 columns ,只有 index ,像是下面我們將陣列 arr 轉換為物件 Series() ,並且設定參數 index=[‘a’,’b’,’c’,’d’,’e’,’f’] ,所以可以在結果看到左邊的 列名稱變成了 a,b,c,d,e,f:

arr = [1,2,3,4,5,6]
series = pd.Series(data=arr,index=['a','b','c','d','e','f'])
print(series)
a    1
b    2
c    3
d    4
e    5
f    6
dtype: int64

以上是一維資料的基本轉換與屬性用法,其他詳細的參數調整可以參閱這個連結的官網文件。

目前我們大致介紹了 pandas 套件最主要的兩個資料存取物件,而之後所有的資料處理方法都會圍繞著這兩個物件,不管是讀取資料、計算、修改、型別轉換、建立統計列表、視覺化⋯⋯等方法都會與這兩個物件有關係,所以建議多練習,熟練這兩個物件的參數使用,才不會在之後使用其他資料處理方法時因為不清楚現在的資料型別而導致出現 error

Written by

Glove Yen

一個不務正業的企管人,喜歡有創造性的事物,從管理到設計到程式,目前正在鑽研資料科學以及網頁前端開發,不知從什麼時候開始已經習慣了每天coding的日子。

—轉自好文作者Glove Yen_Data Science_Python資料處理套件part1-Pandas資料儲存物件
如果你喜歡他的文章、Python資料分析有興趣,歡迎回到他的Blog: glove-coding看更多:)

或接續觀看Pandas 第3講:Python資料處理套件Pandas檢視與定位資料

📒 Python Pandas 系列文章:

Pandas 第1講:Python資料處理套件Pandas簡介

Pandas 第2講:Python資料處理套件Pandas資料儲存物件(本文)

Pandas 第3講:Python資料處理套件Pandas檢視與定位資料

Pandas 第4講:Python資料處理套件Pandas條件篩選資料

Pandas 第5講:Python資料處理套件Pandas整理資料欄位與型別

Pandas 第6講:Python資料處理套件Pandas 資料字串處理

Pandas 第7講:Python資料處理套件Pandas數值處理與基礎統計量

快樂學程式在Udemy 也推出了以Pandas 套件進行資料處理的實戰課程,這次是將Python已視覺化的方式

對資料進行解析,只要一個假日拉高你的職場競爭力!快來這裡一起快樂學程式!

如果你的入門還在單打獨鬥,歡迎來到快樂學程式找到志同道合的夥伴,你的自學之路不孤單。

學程式助教

Recent Posts

三個你不能錯過的教學資訊

疫情之下,原本實體活動全都改成線上,活動分享全都在網路上很容易錯過,這邊整理了幾個跟數位教學相關的活動資訊給大家參考,分享順序為活動時間⏰ 1. Google Workspace技術整合術 Google Workspace for Education (原 G Suite 教育版) 能透過 Gmail、Google Drive、Google Calender、Google Meet 和 Classroom 等通訊與協作應用程式創造輕鬆與順暢的學習環境,並促進協同合作以提升數位學習與教學成效,而且還會為學校資料提供雲端安全性防護…

3 years ago

線上教學沒有臨場感?Gather來幫你解決

實體的教室變成一格一格的畫面,原本吵雜的下課時間也變成掛斷通話的系統聲。原本在班級中的歸屬感慢慢消失了,久而久之,孩子的對於學習,不再有群體的感覺,只是孤軍一人學習、複習、考試,甚至是畢業典禮都少了一份臨場感。因此,今天要和大家介紹一款現在在教育界還很少被提到的軟體-Gather。 Gather 如果你還不知道Gather,或是直覺的把Gather與虛擬會議室連結在一起,不妨先看看Gather裡的特色: 介面是像素型RPG 每個人自由創建一個角色 上下左右輕易控制角色 走道其他角色旁邊能互相討論 小遊戲battle 光是這五點特色,就足以推派它成為遠距教學的工具,除了打造不同空間的地圖外,最特別的是Gahter打造前所未有的臨場感,人與人之間只有靠近到一定距離,才能聽到彼此說話聲音,而相對應的,離開後聲音就會漸漸聽不到,就連白噪音的設計也是如此,非常的逼真。 不知道老師們會不會因為搭建地圖覺得麻煩,或是看到2D介面怕學生當遊戲在玩而不考慮這款軟體,換個角度思考,藉由不同地區的老師們集思廣益,打造出最適合學生學習的環境,像是不同學科的教室、戶外自然生態區、操場、籃球場等等....都可以更貼近真實校園,而像素的介面正好提高學生的學習意願,老師們擔心學生過於沉迷時,也能用全體廣播放上課鐘聲,或是讓學生們聚集在同一區,鏡頭站起來動一動 (另外推薦Active Arcade -> 趣味運動的APP ),就像早操一樣很真實。 線上教學缺乏臨場感,Gather可以創造了讓大家「一起在一個遊戲世界」的凝聚力。縱使Google Meet、Teams 雖然也可以進行討論,但若要每堂課要穿梭在不同會議間,節奏不流暢,使用Gather可以讓學生更自由地移動,相對應的老師也可以神出鬼沒地到處「旁聽」。 教孩子用科技解決問題,如果老師們也努力著示範給孩子看,創造出獨一無二的學習空間,相信對於孩子學習的歷程中,有莫大收穫。但到底怎麼開始使用?別擔心,這次快樂學程式邀請到Gahter界的大神 阿岳,要來和大家分享Gather的6大應用技巧,限名額唷~…

3 years ago

HTML入門系列:基本觀念介紹!

HTML入門&基本觀念介紹!         構成一個網頁,最重要的就是他的結構,而HTML就像是他的骨架,而CSS就是像是我們身體上的肌肉一般,而JS則像是人體的神經、血管般調整著我們身體、傳遞訊息,那麼HTML究竟是指哪些語法呢?   什麼是HTML?       HTML全文又稱為HyperText Markup language ,也就是所謂的超文本標記語言,是網頁構成的基本要素,換言之,網頁就是由一堆html所構成,透過瀏覽器,顯示文字、圖片、以及其他相關我們可以在網頁上看見的基本元素。而對於剛學程式的朋友來說,HTML有以下幾個重點: HTML的基本架構: HTML的基本觀念與優點1.容易學習-HTML的文檔製作非常簡單易懂﹐功能強大之餘還支持不同格式的文件鑲入。2.製作門檻低-HTML是文本﹐它需要瀏覽器的解釋。只要你學會了HTML﹐你就可以直接在Windows的記事本或寫字版上進行製作和編輯﹐當然你也可以用WPS來編寫﹐只要注意在存檔的時候用.htm或.html來做檔名就可以了3.有利於搜尋引擎理解你的內容,透過HTML所構成的頁面被稱作所謂的”靜態頁面”﹐而Google爬蟲會優先收錄靜態網頁﹐所以HTML對於Google來說就像是鯊魚聞到血腥味一樣﹐有利於吸引Google爬蟲。4.加快瀏覽速度-因為靜態網頁無需連接數據庫﹐因此比打開動態網頁的速度較快﹐對於消費者體驗來說有所幫助。5.網站更安全-因為HTML頁面不會受Asp相關漏洞所影響。 HTML的缺點與限制 1.太簡單﹐不能適應現在越來越發達的網路世界和應用的需要﹐比如手機﹑PDA﹑信息家電等都不能直接顯示HTML2.太龐大﹐由於HTML代碼不規范﹑臃腫﹐瀏覽器需要足夠智能和龐大才能夠正確顯示HTML。顯然在你的PDA上裝一個IE6是不可能的。空間不夠﹐運算也跟不上3.數據與表現混雜。這樣你的頁面要改變顯示﹐就必須重新制作HTML。對不同的網路設備顯示同樣的數據都需要制作不同的HTML4.只能對文本進行排版﹐而且HTML樣式使用標準文本標識﹐不能創建一些特殊效果 所以我該如何學習HTML? 有什麼比較快的方法嗎?       答案是沒有的﹐學習程式語言就像是學習廚藝一樣﹐只有透過不停的嘗試﹑嘗試和嘗試才能讓自己有所成長﹐並且慢慢強大。過程中你會一直遇上困難和失敗﹐但你在不斷解決困難的過程中能夠不斷發掘新的知識﹐從失敗中發才能不停的成長。無論你是學習那一種程式語言﹐都需要經歷困難和失敗才能讓自己更加強大﹐正所謂:不經一番寒徹骨,怎得梅花撲鼻香呢?對吧﹐我們能做的不是要找捷徑﹐而是透過不同的媒介和平台去不斷學習﹐那麼下面快樂學程式會為大家介紹一些很棒的程式教學網站﹐讓大家可以不斷提升自己。 1.w3schools.com- 語法練習的好地方這個網站是目前全球訪問量最大的網頁開發教程網站﹐網站裡有多種程式語言的教學﹐而且每種程式語言由淺到深的解說﹐從語言的介紹到不同的功能和方法都會分章節說明。所以無論你是從零開始學的白紙﹐還是已經在學習但遇到困難的新手都可以在這個網站上找到相關資訊﹐是個非常不錯的網站。那麼網址我們當然要雙手奉上﹐請慢用https://www.w3schools.com/ 2.CodeAcademy- 免費的教學網站這是全球其中一個最受歡迎的免費coding教學網站﹐已經有超過2400萬人透過這個網站學習到了如何去coding。這個網站是非常適合新手入門的同學去學習的﹐網站會一步一步仔細的教導而且還有實作﹐所以學習起來非常的快速! 3.StackOverflow- 實際案例與疑難雜症的解決處  這個網站比較適合一些已經有在嘗試動手實作的同學﹐當你在coding的時候遇上困難了﹐那麼你可以在這個可以解決超過80種程式語言問題的網站上找到答案﹐讓你的coding之路更加順暢。  如果你覺得爬網站麻煩又費時,不妨直接點擊快樂學程式的網頁前端課程,老師直接手把手帶你入門HTML !完整的基礎入門課程省下你獨自摸索花費的時間!   課程上架Udemy ! 準備一個輕鬆的週末,只要一天的時間,帶你建置靜態網頁。從實作中打開靜態網頁的大門,讓你的研究之路不是只有自己,有我們跟你一起努力!課程中你可以瞭解網站建置的世界觀與網站版型掌握HTML5的使用方式掌握 CSS3的使用方式使用Bootstrap處理前端UI框架現在開始上課!如果你的入門還在單打獨鬥,歡迎來到快樂學程式找到志同道合的夥伴,你的自學之路不孤單。快樂學程式

3 years ago

HTML語法整理! 3分鐘快速弄懂常用語法!

什麼是HTML?         HTML全名是HyperText Markup Language,是一種描述超文件的註記語言SGML(Standard Generalized Markup Language)所制訂出的一種網頁語言,是編寫網頁的基本語言,基本上現行的瀏覽器都可以讀取HTML,使用HTML可以編輯設計出網頁,也可以在網頁中加入所有HTML語言可支援的方式,例如表格、表單、圖片、文字、連結、程式等等。 HTML介紹與基本語法整理   不管你是小時候從撰寫無名小站為了要修改你的樣式,而開始瞭解HTML和CSS為何物,或是長大因為介面設計或前端工程開始踏入網頁的世界。HTML和CSS對於網站的重要性經過多年依然歷久不衰。在本篇會對HTML進行基礎的介紹並幫你整理出基本語法提供你在寫網頁時的快速參考!   編寫基本的HTML: 先讓大家看一下一個基本的HTML文件格式為: <HTML> <HEAD> <TITLE>網頁主題</TITLE> <Meta> </HEAD> <BODY>…

3 years ago

PHP是什麼?3分鐘PHP基本介紹!

PHP是什麼?3分鐘PHP基本介紹!       大家安安﹐快樂學程式這一次要跟大家分享PHP這種程式語言。希望幫助對於PHP有興趣的新手們可以透過我們的文章對這種語言有初步認識。一如以往﹐我們會分享以下幾項有關PHP的知識。 PHP是什麼?       PHP語言的全名是(PHP: Hypertext Preprocessor),和ASP、JSP等都是動態網頁開發語言,不過,PHP擁有跨平台的能力,無論是在Linux(最適合)、Unix、 Windows都可以執行運作,不像微軟 的ASP只能在Windows平台上執行,而且PHP是免費的,並可結合多種資料庫伺服器,如:MySQL、PostgreSQL、dBase、mSQL、Informix、ODBC、Oracle等。      PHP語言是伺服器端(Server)執行的網頁,不像一般HTML網頁,只要單機下開啟檔案就可以檢視網頁,PHP必須先在伺服器端執行完後,再將結果傳至使用者端(Client)的瀏覽器中檢視結果,所以必須使用網站伺 服器,且伺服器要支援PHP。 如何學好PHP?       要學好PHP,要有目的,要有一個想寫的東西,寫個學校網站,寫個校友系統,寫個簡單的新聞區或相簿...等,都可以,盡可能的和工作和生活結合,利用程式來簡化繁瑣的人工步驟,或者提昇工作效率,有目標,才會有動力,才會有想法。      學PHP不需要背,背不完的,只要懂就好了。像函數就不用背,常用的打久了你就背起來了,不常用的,等到要用時,知道去哪裡找就好。換言之,函數懂越多,功力越高強。      程式碼可以複製貼上,但一定要知道為什麼要這麼寫,不要傻傻的照著打,可以的話,自己打一遍最好,最上乘就是可以說出每一行程式碼的作用和前因後果。或者,故意打錯,看看會怎樣。錯誤訊息看久了,功力也就提昇了。 PHP程式碼執行方式 透過 Web Server 方式:例如利用 Apache…

3 years ago

PHP是什麼?基本介紹與語法整理

Sildenafil citrate oral jelly Combiné avec les données de départs 2, on leur a demandé de type 5 de tadalafil…

3 years ago