延續上一篇:利用Airbnb來更了解臺北,這篇我們就要來把自己當成是Airbnb的資料科學家,嘗試建立房屋的訂價模型。 先說說流程: 檢查變數-價格相關性,好讓我們對影響變量有個了解 處理類別資料,轉換為Python的機器學習套件:Sklearn看得懂的東西 清理缺失值 切分資料成訓練、驗證集 利用交叉驗證建模,Baseline(基礎比較)我選擇L1、L2 Regression 建立Random Forest、XGboost Regressor 利用model畫出變數重要性,方便我們優化模型 反覆迭代,持續優化模型 結語,談如何優化與比較好的建模姿勢 (more…)
導論 這幾年共享經濟興起,外送平臺穿梭在大街小巷協助美食傳送、Uber也成為人們便利的代步工具、而其中Airbnb更是創造了「到別人家住與讓陌生人來自己家住」的嶄新概念。共享經濟的本質就是「更有效率地推動經濟」,在經濟學原理中,我們知道當供給量 = 需求量,就會達到市場均衡,而長期來看,市場會走向一個市場均衡點,市場均衡點其實不能說好、也不能說壞。但有一個可以肯定的點就是: 它讓人們的慾望有效得到滿足,而有效滿足的情況下,人們更容易發現經濟進步的方法。 而共享經濟其實就是在動態的創造市場均衡,讓現金流多了流通的管道、combine不同的需求。既然閒置資源是浪費的,那我們就好好利用它。 包括現在很夯的雲端運算,概念其實也是興起於「共享經濟」,結合規模經濟與處理閒置資源的本質,甚至還有結合區塊鏈的分布式運算系統,讓閒置頻寬得以被充分利用,目前被應用在直播、實況等串流巨大的系統中。 (more…)
Open Data: Google Play Store Apps 在前一篇文章中我們介紹了如何調整欄位名稱以及改變欄位的型別,接下來我們要進入下一個重點:開始著手進行資料處理與計算。在進行資料處理時,如果是使用Python原生的資料結構與函式進行處理,往往會需要使用多重迴圈,但使用 Pandas 套件時,我們可以使用名為 Vectorize Opration Technoloage的技術直接針對整個欄位的資料進行處理,這將會大大提升我們的作業效率。 使用資料表 (more…)
Open Data: Google Play Store Apps 在前一篇文章中我們介紹了如何將資料進行分組以及利用特定條件篩選所需資料,這些技術都是檢視資料的範疇,接下來我們將進入資料清理的環節,畢竟在正常情況下,我們所得到的資料並非都非常完美,可能會因為收集方便或是人為疏失造成資料的儲存形式較不利於分析的情況,這時候我們就需要將資料先行整理成容易分析的結構或是型別,降低分析的時間成本,這也是資料清理的價值。 使用資料表 (more…)
Open Data: Mobile App Statistics (Apple iOS app store) 在上一篇文章中,我們介紹了如何檢視與定位資料,並且在文章最後提到「我們在提取 index 的時候,較常使用 mask 進行條件篩選」,這個條件篩選的方法是 pandas 套件中非常重要的功能,也是這篇文章的核心重點。 使用資料表 Notebook Content: 這次我們會使用apple(AppleStore.csv)的公開資料,其中紀錄了兩個app平台商店中所有app的分類、評分、下載量、名稱、大小⋯⋯等相關資料,假設我們是一間app開發公司的分析人員,我們想研究目前市場中哪些分類的評分以及下載量是比較高的。…
Open Data: Mobile App Statistics (Apple iOS app store) 上一篇我們提到了pandas最重要的兩個資料物件(沒有看過的可以點這個連結),但我們光會存取資料是不夠的,假設我們今天要分析的資料有一萬多筆,且每筆資料都有一百多個欄位,要能直接從如此龐大的資料中分析趨勢或是關聯,基本上是不可能的,所以今天的重點就是介紹如何檢視與定位資料。 使用資料表 Notebook Content: 這次我們一樣會使用apple(AppleStore.csv)的公開資料,其中紀錄了兩個app平台商店中所有app的分類、評分、下載量、名稱、大小⋯⋯等相關資料,假設我們是一間app開發公司的分析人員,我們想研究目前市場中哪些分類的評分以及下載量是比較高的。 首先我們先試著利用 pd.read_csv() 讀取檔案: import pandas as…
Open Data: Mobile App Statistics (Apple iOS app store) 當我們在使用python進行一些基本的資料處理時,很常使用python原生的物件,像是 list() , dict() 去存取及運用資料,但當我們的資料變得複雜的時候,這些原生物件反而顯得有些不便,像是二維陣列的元素計算就是較為複雜的資料形式,每一次的運算可能都要使用多個巢狀迴圈去處理,所以面對這種複雜且大量的資料,我們需要專門處理資料的套件幫我們節省一些作業時間,讓我們可以專心的研究資料內容。 使用資料表 (more…)