fbpx

導論

這幾年共享經濟興起,外送平臺穿梭在大街小巷協助美食傳送、Uber也成為人們便利的代步工具、而其中Airbnb更是創造了「到別人家住與讓陌生人來自己家住」的嶄新概念。共享經濟的本質就是「更有效率地推動經濟」,在經濟學原理中,我們知道當供給量 = 需求量,就會達到市場均衡,而長期來看,市場會走向一個市場均衡點,市場均衡點其實不能說好、也不能說壞。但有一個可以肯定的點就是:

它讓人們的慾望有效得到滿足,而有效滿足的情況下,人們更容易發現經濟進步的方法。

而共享經濟其實就是在動態的創造市場均衡,讓現金流多了流通的管道、combine不同的需求。既然閒置資源是浪費的,那我們就好好利用它。

包括現在很夯的雲端運算,概念其實也是興起於「共享經濟」,結合規模經濟與處理閒置資源的本質,甚至還有結合區塊鏈的分布式運算系統,讓閒置頻寬得以被充分利用,目前被應用在直播、實況等串流巨大的系統中。

既然共享經濟已經逐漸改變我們的生活、改變城市的風貌(粉色熊貓機車穿梭、隨意打卡的旅宿、一通電話就走遍各個地方),那我們可不可以反過來用共享經濟更了解我們所居住的城市呢?今天就讓我們用Airbnb的資料集來探索一下城市與Airbnb的住宿屬性吧!Let’s go!

來了解一下臺灣首都臺北!

資料來源

這份資料集是網路上很有名的Airbnb Inside ,並非官方資料集,但是提供了許多城市的資料,而且更新得蠻快的,這邊我是下載了2019年6月底更新完的資料,包括listing.csv、reivews.csv、calendar.csv,如果您現在並不是居住在臺灣,就挑選您目前居住的城市來分析看看吧!

首先讀入我們的資料套件:

<script src=”https://gist.github.com/Dennis055/29948897ac2b0e94432e73f9572cb1ff.js“></script>

那首先我們讀入需要用到的套件,包括視覺化工具matplotlib、cufflinks、plotly,記得要把init_notebook_mode設定為True,才能讓我們在本地端使用plotly這個好用的視覺化套件,以及像是pandas、numpy等資料分析好幫手。

看一下calendar的資訊:

<script src=”https://gist.github.com/Dennis055/9d1a2f0127d542d7fe09a8893ca4be52.js“></script>

好,所以我們有差不多一年份的資料,以及到明年目前的房客預訂情況。

所以我們就有了接下來一年的Airbnb住房資料,列出了id、詳細日期、定價等等….

這邊的f , t分別代表Falae與True,就是可不可以入住的意思。

等等,Airbnb這麼熱門,那現在還可以訂房嗎?

差不多,也可以利用圓餅圖看得更清楚一些

 

從這邊我們也可以看到兩者蠻接近的,即是說目前還有許多房是可以訂的。既然如此,我們也想看看「目前的熱門程度」表現如何,如此一來想要避開人潮的人,看到現在有些房屋已經被訂走,就可以選擇淡季出去玩了XD

定義熱度:當不可以預定的時候,就表示是熱門的,已經被搶走了。我們可以直接針對available這個欄位做匿名函數,創造新的欄位 ‘ busy ‘ 。

<script src=”https://gist.github.com/Dennis055/45ae02d8df48e4a765606f95636bb605.js“></script>

很明顯看到台北市的趨勢是:暑假冷清???

暑假一整個跌很多(學生都出去玩了),但是到了聖誕節左右又會急劇上升,可能是因為歲末到台北跨年的人很多。然後約莫到1月會有一個高峰,我們也可以看到二月的春節期間也有一點小波動。

熱門程度就是淡旺季指標嗎?

*感謝Yolanda補充:旅遊業其實有衡量淡旺季的指標「滿房率」,而滿房率的概念是與時俱進的,若是以我們現在的六月去推測淡旺季是不合理的!必須要理解用戶行為的提前預訂天數等…….

注意噢!我們這邊只能看到「目前的熱門程度」,所以不能夠完全作為淡旺季的衡量指標,只能預期說這些月份現在來看是比較熱門的!

接下來看看價格資料

哪一個月房東會笑得很開心?或者說,那時候最熱鬧?

<script src=”https://gist.github.com/Dennis055/a320a3674bdf4846152181085de1c478.js“></script>

我們可以觀察到十二月是最高的,效果持續到一月(一月是價格第二高的月份)
而五、六月價格也蠻高的,可能是因為國外比較早放暑假的關係,大家比較可能在六月來台灣玩。另外這樣的價位分佈也讓我們對熱鬧程度有個底。

那我們其實可以這樣想,如果是本地人通常會是假日才比較有可能去住Airbnb,但是國外旅客可以在平日去住Airbnb,這樣假設的話,我們看一下週間的熱門程度,可以利用Python的 Timestamp Type 將禮拜幾抽出來。

<script src=”https://gist.github.com/Dennis055/74c0ee9163f5c13b35a0d931f7b606b2.js“></script>

有趣的是,顯然台灣人還是蠻多人使用的

嗯?似乎還是假日比較多人哦!所以可以推測Airbnb在台灣的使用者算是蠻高的,不過比較特別的是禮拜二有個小小高峰,我們可以猜測禮拜二是否有什麼節日,根據我們剛剛推算的Busy程度,這時候我想說:「該不會那天是跨年吧?」

去查日曆發現:真的!今年(2019)的12月31日剛好在禮拜二哦!可見一月為何是Busy高峰的假設似乎蠻合理的,在年末會有一批人湧入台北城跨年,而聖誕節在禮拜三,也就是說前一週的禮拜二晚上是平安夜,台北的耶誕城應該也吸引了不少人來。

來看看listing data吧!

 

喜歡資料的人(比如說我XD)有福了,這個資料表就有106欄位的資料,真的超棒,可以好好拿來練習資料分析的技術。

哪個區比較多房源呢?會是尊絕不凡信義區嗎?

<script src=”https://gist.github.com/Dennis055/8a928e7dcd4f778883052fe0041398f3.js“></script>

政大所在的文山區真的好少QQ

萬華、大安、中山位列前三名!看到這裡我們就可以大致圈出哪邊房源最多,剛好是以台北車站為中心,向外輻射出的圓圈區域。這點是很合理的,北車是交通樞紐,又在捷運的中樞交匯處:

台北車站真可謂台北市的樞紐

而文山、北投這些相對台北市中心比較邊陲的地方房源就相當少,畢竟比較少遊客會去這些地方的樣子。

那房客評價又是如何呢?

<script src=”https://gist.github.com/Dennis055/32a351248e4b792ac26964f1cc349bc9.js“></script>

集中在高分群!臺灣人真的蠻樂於給別人鼓勵的

大多數人還是會給蠻高的評價,跟App store一樣XXD

可是價格又如何呢?會很貴嗎?

<script src=”https://gist.github.com/Dennis055/d6679b64ce6b0c0d5f49abf54de0ef26.js“></script>

平均2498就可以住一晚,比大多數旅館便宜一些,這點倒是Airbnb的優勢。
但是我們發現標準差太高了,所以看中位數準確一些,是1519元,那是真的比飯店旅館便宜許多。
甚至到了75百分位數的價格也才2511元,對於背包客是相當划算。這也是為何Airbnb是許多國外遊客的首選,除了有跨國的平台保障,最重要的是相當經濟實惠。

但是!

最低62(一碗牛肉湯麵..?)、最高接近31萬,這邊我就很好奇這兩家的特色XD 我們把它們搜尋出來看看:

簡單輸入:listing[listing.price > 290000]

市府捷運站,越夜越嗨的地方

市府捷運站!這是個什麼樣的地方呢?簡單來說:

晚上真的很熱鬧,還有誠品信義、各個百貨、微風、威秀影城、街頭藝人表演…..旁邊就是松菸(蝦皮!)大概從這邊上車的公車都會經過「銀行街」,而且在這個地方不管多晚都看得到101的會計師事務所還亮著XXD (辛苦了各位會計師、顧問前輩們…)

哦!看到有些描述:

t’s my house. Old style taiwanese room in old taiwan culture town Beitou. only for TV program and movie, not for live inside.

意思就是只租給電影劇組,不提供住宿。

原來29萬是借給片場拍片用的!還有尊絕不凡信義區的住宅可以住,不過31萬個人還是覺得太貴了。國外一個月的租金可能差不多五萬左右吧,31萬可以住超過一學期…

所以我們將高於50,000的房源去掉再畫一次!看看大致的住一晚房價分佈。

<script src=”https://gist.github.com/Dennis055/8942b244d8b9eae029e97754f44d623e.js“></script>

各個區域的房價分佈又是如何呢?比如尊爵不凡信義區的價格感覺就相當高。

發現其實沒有特別高哦!而且各個區域都有蠻多的離群值,不過信義、大安這些比較熱門的區域的確是差異比較大一些(box拉得頗長)

不動產屬性又是如何?

<script src=”https://gist.github.com/Dennis055/cae66e9c2d1243072497e245807de9e5.js“></script>

 

真的有許多離群值…

真的有許多離群值…

台北的價格真的一堆離群點XDD

這裡不知道是什麼原因,照理說住整棟(一套民宿)應該會比拆分一棟民宿(private room)貴上很多,但是兩者相差沒有到差很多。
不如說private room其實沒有到那麼貴才對,可能是因為台北的房價本來就有許多不合理的地方。

<script src=”https://gist.github.com/Dennis055/c1acdb9b4af98c3fce441c05df5cc5ee.js“></script>

 

這裡值得注意的是,property還有蠻多差異的,在建模的時候可以稍微留意一下!

越界?

 

我們可以發現private room的確「越界」了,而且在5000、8000左右的房價蠻多的。

Airbnb一開始其實是Airbed and breakfast的意思,當初是聯合創始人Joe Gebbia和Brian Chesky因為繳不起房租,在自己的公寓擺了幾張氣墊床出租給來舊金山參加會議,因酒店爆滿而找不到地方住的旅行者們。

所以,到了今天,床的類型會如何影響租房價格呢?

簡單呼叫剛剛寫的函數:boxplot_to_price(‘bed_type’)

也是差不多!

沒想到,居然比我想像中差得還要少!可能氣墊床對大家來說是個特別的體驗,價格沒有特別特別低!(不過Real Bed跟Airbed還是有明顯的差距,Real Bed的中位數直接壓Airbed的最大值…)

有鋪床、日式(榻榻米嗎?)、床型沙發(之前去朋友家,躺在上面超舒服)、沙發、氣墊床…

可是這樣,對舒適度沒有影響嗎?鋪床不是比較好睡嗎(?我想可能是因為資料不平均,所以這邊看不出什麼差異。

來了!房東如果想要提高舒適度,該注意什麼呢?

<script src=”https://gist.github.com/Dennis055/684e3ef2687f7cff6d993286842f2770.js“></script>

沒想到,居然比我想像中差得還要少!可能氣墊床對大家來說是個特別的體驗,價格沒有特別特別低!(不過Real Bed跟Airbed還是有明顯的差距,Real Bed的中位數直接壓Airbed的最大值…)

有鋪床、日式(榻榻米嗎?)、床型沙發(之前去朋友家,躺在上面超舒服)、沙發、氣墊床…

可是這樣,對舒適度沒有影響嗎?鋪床不是比較好睡嗎(?我想可能是因為資料不平均,所以這邊看不出什麼差異。

來了!房東如果想要提高舒適度,該注意什麼呢?

Wi-fi標配!

<script src=”https://gist.github.com/Dennis055/684e3ef2687f7cff6d993286842f2770.js“></script>

冷氣跟Wifi果然是標配!出去玩回到房間,果然就是要舒舒服服躺在床上整理照片、看一下明天的行程等等……吹風機提供的量也蠻高的,但是洗衣機只有大概80%的房屋有提供…它其實應該要算是旅行的標配之一。

值得一提的是,國外的Airbnb相當注重有沒有Kitchen、Smoke detector,台灣在這方面大概只有一半的Airbnb有提供,感覺是可以優化的地方。

接下來我們看看比較貴的房屋都有提供哪些物件:

(這兩段code都有難度,如果覺得很卡的人可以直接複製貼上XD)

<script src=”https://gist.github.com/Dennis055/f38595add14aab87cbc2b5ae4259688e.js“></script>

哦,我們發現高價的房屋大部分都有提供廚房、浴缸、還有ㄜ….Electronic profiling bed ,這個不曉得怎麼翻比較好QQ

還有一個蠻特別的就是,增加了Crib、Baby monitor、Baby bath、Books and toys等等….所以可以看到高價房的特徵就是比較適合帶幼幼童的父母們,多考慮了寶寶這個點以及附有兒童相關設施。

那提供幾張床呢?

<script src=”https://gist.github.com/Dennis055/d0731bd65aa668ba2dbb998bd0290ea3.js“></script>

 

 

大部分都是以單人床為主。

還是…其實沒床也沒關係?

為什麼沒有床跟有床的價格差不多,睡地板XD?
那我們也可以發現8、10、12、14、16張床應該就是大通舖,所以價格突然降低,其他比較多張床的應該就是租下整棟透天Airbnb。

共享經濟的概念其實不新,甚至非常直覺,得益於資訊效率的進步使得它能夠充分被落實,而資料科學也是其中的一環,沒有資料科學,共享經濟的效益與推動就難以被正確執行,Uber會算不出來合理車資、Airbnb讓房東隨意定價、外送平臺也不會那麼有效率。

這份資料集還有很多資料可以玩,接下來就讓大家自由發揮!我們先在這邊告一段落,那下一篇,既然資料科學在共享經濟這麼重要,我們就來用Python實作:

將自己變成Airbnb資料科學家,如何建立房屋訂價模型?

文章出自 — Dennis Dsh,A Data Analysis Intern in Commerce。

Leave a Reply