技術問題

Pandas 第1講:Python資料處理套件Pandas簡介

一.前言: 什麼是pandas?                 先介紹一下Pandas是什麼,簡單來說就是把Excel的表格觀念丟到Python,概念類似試算表的資料分析套件   為什麼學習pandas?        Excel中所有的操作都可以透過Pandas的函式做簡單的處理,像是欄位的加總、分群、樞紐分析表、小計、畫折線圖、圓餅圖等等… 二.學習項目 1.安裝pandas 2.單維度Series 3.雙維度DataFrame…

5 years ago

十分鐘內搞懂matplotlib

一.前言: 什麼是Matplotlib? Matplotlib是一個Python 的視覺化套件 ,其中包含兩個最重要的模組 — pylab 和 pyplot,我們可以利用Matpolib創建各種圖形,包括簡單的折線圖,直方圖,散佈圖...。Python 數據計算中經常使用它來完成視覺化的工作。   二.學習目標: 本文以實際代碼編寫,來介紹 pyplot 的使用方式! Python 的 Matplotlib 可繪製簡單的折線圖,只要使用 plt.plot…

5 years ago

盤點10個超多人使用的前端動畫庫!

在網頁設計上,你可能固定使用某幾個動畫庫,但你知道 GitHub 上面其實有超多超夯的前端動畫庫嗎? 前端動畫不僅能代表該網頁製作者與單位的用心,同時也能增加使用者好的體驗, 這篇文章幫喜愛網頁互動動畫的你整理了10個超多人推薦的前端動畫庫! 我們趕快往下看吧! 1. jQuery.countdown 創立者:hilios GitHub 人氣:2.2K stars GitHub 傳送門:https://github.com/hilios/jQuery.countdown 2. aniJS 創立者:anijs GitHub 人氣:3.6K stars…

5 years ago

Python初學總整理 第7講:爬蟲實例解析 – 以爬取臉書社團為案例,使用 Selenium 來進行網頁模擬爬蟲

適合本篇閱讀的人:   剛接觸Python   剛入門爬蟲   範例流程: 爬取python Taiwan FB社團,在社團內部自動垂直瀏覽頁面。爬取貼文時間,併計算貼文數量。 https://gist.github.com/dreamline2/6df1c4ff4e00e36404669b1437b45820 第一部分:介紹各種python內建套件模塊   1. Selenium:程序可以直接驅動瀏覽器進行各種網站操作。       2. Webdriver:真實的模擬人對於瀏覽器的操作行為。 …

5 years ago

Pandas 第7講:Python資料處理套件Pandas數值處理與基礎統計量

上一篇文章主要介紹如何利用pandas處理字串資料,而這章節的會著重於數值的資料處理以及顯示基礎統計量的方法。在資料分析中,數值資料是非常常見的,而且對於後續的深入分析而言,數值資料能夠讓我們進一步利用推論統計檢定許多因素與目標的關聯性,幫助我們能夠利用檢定結果進行決策,或是發現夠深入的趨勢。   這次我們會使MLB美國職棒大聯盟的各隊歷年統計數據(mlb_team.csv)的公開資料,其中記錄了美國職棒大聯盟從西元1871年至今的各球隊數據,因為最近正好碰到需要分析棒球的運動相關數據,且這份資料大部分的欄位都是數值欄位,正好適合這篇文章主題。 讀取資料: import pandas as pd mlb_teams = pd.read_csv("mlb_team.csv",encode="UTF-8") mlb_teams.head()     向量處理 Vectorize Operations 之前的文章中有提到Pandas是利用向量處理的方式進行資料處理的,所以我們在進行數值運算的時候都是針對單一個欄位將欄位中的所有數值進行相同的運算,如果要針對特定條件的數值進行運算,則需要先進行資料篩選再進行數值處理。 基本上在利用Pandas進行數值運算時,跟我們一般在寫Python計算一樣,只是平常用於運算的變數變成了 DataFrame 物件或是 Series 物件,所以所有Python中的數學運算符,在Pandas都可以直接使用: s…

5 years ago

不停機 migration 避免鎖表的幾種操作

基本上在商業應用中,我們會盡可能的避免停機操作,試想光 CloudFlare 因為 bad deploy 當機幾分鐘至一個小時就會引發一連串的災難,在商場上每分每秒都是錢,為了避免不必要的損失,軟體工程常常會面臨到所謂的 zero downtime 操作。 但像資料庫的結構設計不可能一開始就符合大型架構,所以這過程通常都是不停的升級遷移,才有了符合現在設計的樣貌,所以不可避免的停機還是會發生的,通常幾個原因 應用程式的 code 不能同時兼容 migration 前 / 後的資料庫 因為資料量大,在跑 migration 時造成的長時間鎖表…

5 years ago

Pandas 第6講:Python資料處理套件Pandas 資料字串處理

Open Data: Google Play Store Apps 在前一篇文章中我們介紹了如何調整欄位名稱以及改變欄位的型別,接下來我們要進入下一個重點:開始著手進行資料處理與計算。在進行資料處理時,如果是使用Python原生的資料結構與函式進行處理,往往會需要使用多重迴圈,但使用 Pandas 套件時,我們可以使用名為 Vectorize Opration Technoloage的技術直接針對整個欄位的資料進行處理,這將會大大提升我們的作業效率。 使用資料表 (more…)

5 years ago

Pandas 第5講:Python資料處理套件Pandas整理資料欄位與型別

Open Data: Google Play Store Apps 在前一篇文章中我們介紹了如何將資料進行分組以及利用特定條件篩選所需資料,這些技術都是檢視資料的範疇,接下來我們將進入資料清理的環節,畢竟在正常情況下,我們所得到的資料並非都非常完美,可能會因為收集方便或是人為疏失造成資料的儲存形式較不利於分析的情況,這時候我們就需要將資料先行整理成容易分析的結構或是型別,降低分析的時間成本,這也是資料清理的價值。 使用資料表 (more…)

5 years ago

Pandas 第4講:Python資料處理套件Pandas條件篩選資料

Open Data: Mobile App Statistics (Apple iOS app store) 在上一篇文章中,我們介紹了如何檢視與定位資料,並且在文章最後提到「我們在提取 index 的時候,較常使用 mask 進行條件篩選」,這個條件篩選的方法是 pandas 套件中非常重要的功能,也是這篇文章的核心重點。 使用資料表 Notebook Content: 這次我們會使用apple(AppleStore.csv)的公開資料,其中紀錄了兩個app平台商店中所有app的分類、評分、下載量、名稱、大小⋯⋯等相關資料,假設我們是一間app開發公司的分析人員,我們想研究目前市場中哪些分類的評分以及下載量是比較高的。…

5 years ago

Pandas 第3講:Python資料處理套件Pandas檢視與定位資料

Open Data: Mobile App Statistics (Apple iOS app store) 上一篇我們提到了pandas最重要的兩個資料物件(沒有看過的可以點這個連結),但我們光會存取資料是不夠的,假設我們今天要分析的資料有一萬多筆,且每筆資料都有一百多個欄位,要能直接從如此龐大的資料中分析趨勢或是關聯,基本上是不可能的,所以今天的重點就是介紹如何檢視與定位資料。 使用資料表 Notebook Content: 這次我們一樣會使用apple(AppleStore.csv)的公開資料,其中紀錄了兩個app平台商店中所有app的分類、評分、下載量、名稱、大小⋯⋯等相關資料,假設我們是一間app開發公司的分析人員,我們想研究目前市場中哪些分類的評分以及下載量是比較高的。 首先我們先試著利用 pd.read_csv() 讀取檔案: import pandas as…

5 years ago