延續上一篇:利用Airbnb來更了解臺北,這篇我們就要來把自己當成是Airbnb的資料科學家,嘗試建立房屋的訂價模型。
先說說流程:
- 檢查變數-價格相關性,好讓我們對影響變量有個了解
- 處理類別資料,轉換為Python的機器學習套件:Sklearn看得懂的東西
- 清理缺失值
- 切分資料成訓練、驗證集
- 利用交叉驗證建模,Baseline(基礎比較)我選擇L1、L2 Regression
- 建立Random Forest、XGboost Regressor
- 利用model畫出變數重要性,方便我們優化模型
- 反覆迭代,持續優化模型
- 結語,談如何優化與比較好的建模姿勢
這篇文章並不是一個「教你建立精準訂價的模型」的學術性文章,因為建立非常準確的模型是很花時間、又很費工夫的,一篇文章絕對寫不完,加上個人的時間有限,本篇處理變數與特徵的手法難免會粗糙一點(甚至最後還有嚴重的overfit),但是可以讓您一起做機器學習的模型,嘗試體驗一下訂價與逼近最優解的過程。準備好了,就打開電腦跟著一起做吧!
最下方也有完整的程式碼,做完可以參考看看哦!
看一下連續變數
“3:”意思是從第四個變數開始,因為前三個變數是id類型的變數,雖然Airbnb的訂價走向個人化了,id應該也藏著一些能夠讓機器學習的特徵,但這邊為了簡單一點,我們就把不重複數量過多的id類型變數先剔除掉。
接下來畫出相關係數圖,我喜歡用熱點圖來方便看出變數之間的相關性。
看到price那行,我們可以發現guests included 以及accommodates跟price算是最相關的,這蠻符合直覺,也跟上一篇我們做探索性資料分析時得到的insight一致。
資料處理(Data preprocessing)
第一步還是清資料,將離群值、NaN值太多的變數刪掉。
另外重複值太多的變數也要刪掉,因為如果表現不出差異性,其實對模型的學習是沒什麼幫助的。就好像猜硬幣,左手跟右手如果沒有明顯的差異,很難判斷跟預測說哪一隻手「有硬幣」,其實機器學習的預測就是如此,我們要嘗試建立多個差異大的特徵,讓模型比較好判斷並做出決策。
因為價格從Box plot可以看到有太多離群值,所以我們踢除掉一部分的離群值。
方便起見直接把NaN值剔除掉,填補缺失值的方式很多,有重新建模、統計變量填補,甚至一些模型其實可以吃缺失值(其實就是把缺失也當作一種特徵),缺失值在實際場景中其實蠻常看到的,包括資料無法取得(客戶不願意填寫)、資料不存在、機器故障,根據真實場景會有不同、更有意義的填補方式,那這邊我們還是先刪掉就好。
記得我們上一篇有看到的amenities屬性嗎?它裡面是存放許多個文字資料的,因此我們還要對文字變量分詞與編碼,這部分利用詞頻統計就好囉!
CountVectorizer可以協助我們點名
做出來的結果會是下圖,就是看每個房源「有沒有這個配備」,有的話就是1,沒有則是0。
這是一個高達127個維度的DataFrame,物件真的很多很複雜啊….
接下來挑出根本沒有差異的變數,比如使用的資料都是臺北市,像是Country、Country code就都一樣了,對模型沒有幫助,可以踢除掉。
接下來因為像是True、False等資料是電腦看不懂的,他們只認數字,所以我們就把True編碼為1,False編碼為0,跟上面的文字資料轉換「有無」邏輯相通。
合併表格
將目前的DataFrame與剛剛的amenities表格合併在一起,可以看到變成一張168維度的大表格。
更細緻處理類別變數
從上面這張表我們也可以發現還有許多文字資料對不對?這些文字對我們的model來說是看不懂的,我們必須利用編碼(Encoder)的技術來轉換文字資料,讓它們變成數字。
簡單來說,如果我們發現類別變量之間沒有明顯的關係,那就可以用One hot encoding,如果存在某種Order關係,好比對衣服大小來說,衣服的S、L、XL是有意義的,對機票的價格來說,機票的頭等艙、商務艙、經濟艙是有意義的,那我們就可以用Label encoding。如果是發現不同level有更具備可解釋的差異,好比不同商品品種的「價格帶」具備差異(比如小米跟紅米同樣都是來自小米公司,但是他們針對的TA就不同,價格帶也有明顯差異),相比Label可以更好描述,那就可以用Target encoding,不過Target encoding有個小問題是可能會存在data leakage(特徵洩漏)的問題,比如統計好每種品類的平均價格,模型就可以間接得知價格的上下限是多少,所以使用的時候要蠻小心的,不要用到太細的target。
從上面的編碼介紹我們也可以看到,其實很難說「看到什麼就用什麼編碼」,一切都是端看「所分析、預測的目標」是什麼,才有不同的編碼含義。如果想了解更多「商業目標與機器學習」的內容,可以看我之前的這篇文章:領域專家?利用管理顧問的技巧做特徵工程。
更多常用的編碼技巧可以看這篇機器學習馬拉松的文:特徵工程的編碼技術
我這邊是這樣做的:
- host verifications : 刪去
- neighbourhood_cleansed : mean encoding
- property_type : mean encoding ,有明顯差異
- amenities :刪掉,已經轉one hot了
- room_type :label encoding (似乎存在order relationship)
- bed_type : label encoding (似乎存在order relationship)
- extra people : 轉換為連續變量
- calendar_update :轉換為連續變量
- calendar_last_scraped : 刪掉
- cancellation_policy : mean encoding
接下來針對上面的編碼,我們寫兩個函數來方便重複操作。
啊啊!還發現了仍然有些變數沒有差異性,所以再把他們刪除掉,當變數太多有時候還是會有漏網之魚,要小心檢查。
接下來處理extra people 、calendar_update :轉換為連續變量。
不過calendar update有點棘手,因為它的資料沒有徹底格式化,分成N週前、N天前、N月前,為了判斷時間,我們想把資料轉換為以天為單位的連續資料,而比較大的時間單位就乘上相對應的天數就好囉!
這邊的程式碼會比較複雜,腦袋打結的人可以直接複製貼上,或者想訓練處理時間資料的人可以自己練習寫寫看,如果換到Excel、PowerBI,又可以怎麼處理呢?可以好好想想哦!
清理缺失值
仔細看,我們發現extra people有少許缺失值,所以我們簡單用mode(眾數)填補。
建立訂價模型
這邊由於建模並非這份資料集的重點,因此我只會帶過基本的特徵處理、以及快速地建一個模型出來,也就是說這邊的model算是只做出一個baseline,如果要進行數據科學比賽,我個人的習慣還會搞剛許多、可能光是特徵工程就會分好幾篇來寫XXD
建模之前有些必須要做的資料處理,好比數據縮放,簡單的方式是直接把它標準化,因為有些演算法是基於距離的,如果距離的尺度相差太多,通常模型不會表現得很好,其中又有分為「最大最小縮放」與「標準化」。
通常我是使用標準化,這是因為許多線性模型中,比如Logistic regression (特別注意一下,Logistic regression是一個分類而不是迴歸模型),會初始化「加權」為0或者接近0的一個很小隨機值,使用標準化可以讓特徵縮放之後的平均值為0,標準差為1,特徵會滿足常態分佈,使得加權學習更容易完成。不過其實也要看面對什麼樣的資料以及問題,並沒有說哪個方法比較好,只有比較「適合目前的情況」而已。