利用Airbnb來更了解居住城市，以臺北為例 Python實作（下）

延續上一篇：利用Airbnb來更了解臺北，這篇我們就要來把自己當成是Airbnb的資料科學家，嘗試建立房屋的訂價模型。

先說說流程：

檢查變數-價格相關性，好讓我們對影響變量有個了解
處理類別資料，轉換為Python的機器學習套件：Sklearn看得懂的東西
清理缺失值
切分資料成訓練、驗證集
利用交叉驗證建模，Baseline（基礎比較）我選擇L1、L2 Regression
建立Random Forest、XGboost Regressor
利用model畫出變數重要性，方便我們優化模型
反覆迭代，持續優化模型
結語，談如何優化與比較好的建模姿勢

這篇文章並不是一個「教你建立精準訂價的模型」的學術性文章，因為建立非常準確的模型是很花時間、又很費工夫的，一篇文章絕對寫不完，加上個人的時間有限，本篇處理變數與特徵的手法難免會粗糙一點（甚至最後還有嚴重的overfit），但是可以讓您一起做機器學習的模型，嘗試體驗一下訂價與逼近最優解的過程。準備好了，就打開電腦跟著一起做吧！

最下方也有完整的程式碼，做完可以參考看看哦！

看一下連續變數

“3:”意思是從第四個變數開始，因為前三個變數是id類型的變數，雖然Airbnb的訂價走向個人化了，id應該也藏著一些能夠讓機器學習的特徵，但這邊為了簡單一點，我們就把不重複數量過多的id類型變數先剔除掉。

接下來畫出相關係數圖，我喜歡用熱點圖來方便看出變數之間的相關性。

看到price那行，我們可以發現guests included 以及accommodates跟price算是最相關的，這蠻符合直覺，也跟上一篇我們做探索性資料分析時得到的insight一致。

資料處理（Data preprocessing）

第一步還是清資料，將離群值、NaN值太多的變數刪掉。
另外重複值太多的變數也要刪掉，因為如果表現不出差異性，其實對模型的學習是沒什麼幫助的。就好像猜硬幣，左手跟右手如果沒有明顯的差異，很難判斷跟預測說哪一隻手「有硬幣」，其實機器學習的預測就是如此，我們要嘗試建立多個差異大的特徵，讓模型比較好判斷並做出決策。

因為價格從Box plot可以看到有太多離群值，所以我們踢除掉一部分的離群值。

方便起見直接把NaN值剔除掉，填補缺失值的方式很多，有重新建模、統計變量填補，甚至一些模型其實可以吃缺失值（其實就是把缺失也當作一種特徵），缺失值在實際場景中其實蠻常看到的，包括資料無法取得（客戶不願意填寫）、資料不存在、機器故障，根據真實場景會有不同、更有意義的填補方式，那這邊我們還是先刪掉就好。

記得我們上一篇有看到的amenities屬性嗎？它裡面是存放許多個文字資料的，因此我們還要對文字變量分詞與編碼，這部分利用詞頻統計就好囉！

CountVectorizer可以協助我們點名

做出來的結果會是下圖，就是看每個房源「有沒有這個配備」，有的話就是1，沒有則是0。

這是一個高達127個維度的DataFrame，物件真的很多很複雜啊….

接下來挑出根本沒有差異的變數，比如使用的資料都是臺北市，像是Country、Country code就都一樣了，對模型沒有幫助，可以踢除掉。

接下來因為像是True、False等資料是電腦看不懂的，他們只認數字，所以我們就把True編碼為1，False編碼為0，跟上面的文字資料轉換「有無」邏輯相通。

合併表格

將目前的DataFrame與剛剛的amenities表格合併在一起，可以看到變成一張168維度的大表格。

更細緻處理類別變數

從上面這張表我們也可以發現還有許多文字資料對不對？這些文字對我們的model來說是看不懂的，我們必須利用編碼（Encoder）的技術來轉換文字資料，讓它們變成數字。

簡單來說，如果我們發現類別變量之間沒有明顯的關係，那就可以用One hot encoding，如果存在某種Order關係，好比對衣服大小來說，衣服的S、L、XL是有意義的，對機票的價格來說，機票的頭等艙、商務艙、經濟艙是有意義的，那我們就可以用Label encoding。如果是發現不同level有更具備可解釋的差異，好比不同商品品種的「價格帶」具備差異（比如小米跟紅米同樣都是來自小米公司，但是他們針對的TA就不同，價格帶也有明顯差異），相比Label可以更好描述，那就可以用Target encoding，不過Target encoding有個小問題是可能會存在data leakage（特徵洩漏）的問題，比如統計好每種品類的平均價格，模型就可以間接得知價格的上下限是多少，所以使用的時候要蠻小心的，不要用到太細的target。

從上面的編碼介紹我們也可以看到，其實很難說「看到什麼就用什麼編碼」，一切都是端看「所分析、預測的目標」是什麼，才有不同的編碼含義。如果想了解更多「商業目標與機器學習」的內容，可以看我之前的這篇文章：領域專家？利用管理顧問的技巧做特徵工程。

更多常用的編碼技巧可以看這篇機器學習馬拉松的文：特徵工程的編碼技術

我這邊是這樣做的：

host verifications : 刪去
neighbourhood_cleansed : mean encoding
property_type : mean encoding ，有明顯差異
amenities ：刪掉，已經轉one hot了
room_type :label encoding (似乎存在order relationship)
bed_type : label encoding （似乎存在order relationship）
extra people : 轉換為連續變量
calendar_update ：轉換為連續變量
calendar_last_scraped : 刪掉
cancellation_policy : mean encoding

接下來針對上面的編碼，我們寫兩個函數來方便重複操作。

啊啊！還發現了仍然有些變數沒有差異性，所以再把他們刪除掉，當變數太多有時候還是會有漏網之魚，要小心檢查。

接下來處理extra people 、calendar_update ：轉換為連續變量。

不過calendar update有點棘手，因為它的資料沒有徹底格式化，分成N週前、N天前、N月前，為了判斷時間，我們想把資料轉換為以天為單位的連續資料，而比較大的時間單位就乘上相對應的天數就好囉！

這邊的程式碼會比較複雜，腦袋打結的人可以直接複製貼上，或者想訓練處理時間資料的人可以自己練習寫寫看，如果換到Excel、PowerBI，又可以怎麼處理呢？可以好好想想哦！

清理缺失值

仔細看，我們發現extra people有少許缺失值，所以我們簡單用mode（眾數）填補。

建立訂價模型

這邊由於建模並非這份資料集的重點，因此我只會帶過基本的特徵處理、以及快速地建一個模型出來，也就是說這邊的model算是只做出一個baseline，如果要進行數據科學比賽，我個人的習慣還會搞剛許多、可能光是特徵工程就會分好幾篇來寫XXD

建模之前有些必須要做的資料處理，好比數據縮放，簡單的方式是直接把它標準化，因為有些演算法是基於距離的，如果距離的尺度相差太多，通常模型不會表現得很好，其中又有分為「最大最小縮放」與「標準化」。

通常我是使用標準化，這是因為許多線性模型中，比如Logistic regression （特別注意一下，Logistic regression是一個分類而不是迴歸模型），會初始化「加權」為0或者接近0的一個很小隨機值，使用標準化可以讓特徵縮放之後的平均值為0，標準差為1，特徵會滿足常態分佈，使得加權學習更容易完成。不過其實也要看面對什麼樣的資料以及問題，並沒有說哪個方法比較好，只有比較「適合目前的情況」而已。

接下來切分資料集，就好像讓資料變成隨堂測驗（train）與實際考試（test）。另外我們也把價格做對數轉換（取log），讓價格更接近常態分佈一些。

另外因為我們的變數實在太多了，其實可以在正式建模之前降維，將重要性不高的變數、高共線性的變數刪去，下面我有使用正則化（將重要性不高的變數自動剔除）來達到降維的效果，單純降維就不演示了，也可以用SBS 演算法來做，有興趣的朋友可以嘗試一下。

Baseline

我們使用L1、L2 Regression來做baseline，其中alphas是一個生成0.01~0.001（10的-2~-3次方）的矩陣，將之傳入model中，回傳的是alphas（正則懲罰係數）中各個數分別當作正則係數時的L2 model 。

我們可以引入LassoCV、RidgeCV，而不是單純的Lasso、Ridge模型，其實也跟考試的道理很像，我們總不會念完書、在學校考個段考就直接去考學測、指考（聯考），通常會有模擬考，仿真大考，可以讓我們檢視目前的程度並做應對，而CV(Cross validation)的道理也一樣，就是讓我們可以交叉驗證目前的實力如何並優化。

只是Baseline，這邊我們的模型解釋力（R square）只有52%。

隨機森林

如果是第一次看到這個演算法的人，這裡有隨機森林的簡單介紹。

簡單來說，就是利用Ensemble的方法將分類器們聚集在一起投票，使得模型具備解釋性的同時保持穩定。

接下來我們可以使用隨機森林建模，在Python中應用隨機森林相當簡單，只要引入Sklearn的ensemble models就好，簡單調整一下參數把資料放進去train。

RMSE下降到0.348，感覺其實不錯，再加入更多一點特徵能夠捕捉得更全面。另外可以畫出訓練資料的情形，會發現說R square相當高，此時就要小心overfit!這是因為我們給的變數太多了，比較好一點的方法是利用Adj R square來衡量，有興趣優化的朋友可以自己做做看。這裡我們為了方便淺顯地說明模型，所以用R square的變化來說明模型的變化。但是有一個很重要的觀念就是，R square是很好操作的，有興趣的朋友可以看看綠角財經筆記:財務上的 R square偏誤。

隨機森林強大的地方還不只如此，可以藉由feature_importance查看變數重要性，意即重要影響價格的因子是什麼。這點在商業應用上非常重要，因為可以作為判斷「優化」的重要參考，好比今天知道程式刷新速度是最大的影響因子，我們就可以根據現有資源，思考是否優先調整刷新演算法來提升顧客體驗，進而優化數據指標。

畫出變數重要性前十名，這邊有觀察到什麼嗎？

另外我有特別做了cross validation，也是差不多的結果，但是時間會花蠻久的(我是用5折)，而且電腦會有點燙，有興趣的朋友可以再自己嘗試，看會不會好一點，如果只是用筆電的朋友，可以用單純的模型就好。

XGBRegressor

如果不熟悉這個演算法的人，這邊有關於XGBoost的神話，以及簡單的介紹與鐵達尼號資料集實做。

我們也用從推出到現在都很夯的XGBoost來做做看，會overfit的更嚴重就是：

再看看，發現了什麼呢？

目前的model，可以發現說「accommodates」是一個影響蠻重要影響價格的因素，以及前面EDA做到的「room type」、「cancellation policy」、「property type」等等…，這些在前面我們並沒有做太多的特徵工程，所以這邊有一個想法是回去針對這些feature 根據領域知識來建立一些有用的特徵。

我們可以針對這幾個比較重要的feature多建立幾個特徵試試看，比如guest_included就可以根據我們的EDA，創建一個「是否為大通鋪（人多但是價格低）」的feature、根據領域知識創建「顧客停留時間的特徵」、收集更多關於城市的資料… 還有許多可以優化的地方。畢竟我們初步建立的模型只有73~75%的解釋能力，RMSE還是有0.335，說明更general的特徵是不夠的，還有可以放入的特徵，另外amenities這個變數感覺也可以好好利用，目前的想法是人工分類一下，抓大放小，好比「安全類型」（有智慧鎖、煙霧感測器之類）的放在一塊、「舒適類型」的（有懶骨頭之類）放在一塊…….蠻有趣的是我還有看到ev charger這個變數（電動車的充電），amenities真的有許多東西可以挖掘。

資料表格與洞察

我們將預測的結果，跟test data的label比較一下，sample這個函數就是從資料裡面抽樣：

以上則是預測 v.s. 真實的結果，看到model是高估比低估多一些，但是預測值減去真實值又是少於零，代表說有很誇張的高價離群值需要踢除掉（其實做EDA的時候看box plot 也知道需要好好處理非常多離群點的問題），可以用蓋帽法來應對看看，應該可以優化訂價模型。

另外畫出train、test，Train set 的R square高達95%，這表示我們的model學了很多不該學的特徵，overfit的很嚴重(主要是變數真的太多了，理所當然R²很高，有太多變數可以描述、「組合」出價格，當然資料太少也是一個因素)，這感覺其實就像是我們給模型太多模擬題本，它幾乎把模擬考的答案都背下來了，換句話說，該學的東西有很多都沒有學到，雖然也有可能是有意義、有用的特徵不夠多。

必須想辦法增加有意義的特徵、剔除掉無用特徵才能增加model的泛化能力，amenities直接one hot encoding的副作用太大了。這邊是簡單起見直接這樣編碼，另一方面也是自己想看看有沒有對價格影響很大的物件變數，其實可以考慮剔除掉來做做看。

很誇張的過度配適

降低維度、減少特徵個數。我們的model沒有降維過，所以學到了許多奇奇怪怪的東西，這也是機器學習時要很注意的地方。

結語，還可以怎麼優化？

走捷徑，不一定能享受到探索資料分析的樂趣

資料科學的比賽上常常會有人一進場就直接做一個Tree model，根據特徵重要性來針對性地做EDA（Explore data analysis）。倒不如說如果真的要打比賽，這麼做是最有效率的方式。只不過這個Airbnb 分析是我的side project，比起建模我會比較想要多玩一點探索性資料分析的東西，實務上也會因為商業目的的不同，有不同的應對方式。

最後是機器學習的modeling上，其實還有非常多細節，而沒有降維過的資料就拿進模型去訓練是很容易overfit的（比如上面的隨機森林、XGboost）。另外，我自己在建模的時候並不一定會是這套流程（但是請務必先玩熟不同的資料科學庫，通常我會用好幾個針對machine learning modeling的library來輔助分析，上面我只有在modeling的階段簡單用了sklearn，但是實際上有更多好用又暴力的工具），這邊只是單純過一遍大致的流程，真的要做訂價的話，我大概會再多了解一些領域知識，利用這篇的方法，看書、訪談領域專家、上網閱讀，甚至直接找Airbnb發表的相關論文來看，都比直接用資料科學硬做的方式來得有效率。另外有人可能會問說都使用Ensemble 的model了，為什麼不做Stacking ?

這個就是蠻Tricky的問題了，最大的原因也是現實世界中企業走人工智慧的商業轉型時，做model沒什麼用的原因，有興趣的人可以自己做做看，您大概就會明白問題出在哪囉～

完整程式碼

文章出自 — Dennis Dsh，A Data Analysis Intern in E-Commerce。

學程式助教

Next學程式主題小聚-【利用Python掌握消費者輪廓】 »

Previous « 利用Airbnb來更了解居住城市，以臺北為例 Python實作（上）

三個你不能錯過的教學資訊

疫情之下，原本實體活動全都改成線上，活動分享全都在網路上很容易錯過，這邊整理了幾個跟數位教學相關的活動資訊給大家參考，分享順序為活動時間⏰ 1. Google Workspace技術整合術 Google Workspace for Education (原 G Suite 教育版) 能透過 Gmail、Google Drive、Google Calender、Google Meet 和 Classroom 等通訊與協作應用程式創造輕鬆與順暢的學習環境，並促進協同合作以提升數位學習與教學成效，而且還會為學校資料提供雲端安全性防護…

5 years ago

線上教學

線上教學沒有臨場感？Gather來幫你解決

實體的教室變成一格一格的畫面，原本吵雜的下課時間也變成掛斷通話的系統聲。原本在班級中的歸屬感慢慢消失了，久而久之，孩子的對於學習，不再有群體的感覺，只是孤軍一人學習、複習、考試，甚至是畢業典禮都少了一份臨場感。因此，今天要和大家介紹一款現在在教育界還很少被提到的軟體-Gather。 Gather 如果你還不知道Gather，或是直覺的把Gather與虛擬會議室連結在一起，不妨先看看Gather裡的特色：介面是像素型RPG 每個人自由創建一個角色上下左右輕易控制角色走道其他角色旁邊能互相討論小遊戲battle 光是這五點特色，就足以推派它成為遠距教學的工具，除了打造不同空間的地圖外，最特別的是Gahter打造前所未有的臨場感，人與人之間只有靠近到一定距離，才能聽到彼此說話聲音，而相對應的，離開後聲音就會漸漸聽不到，就連白噪音的設計也是如此，非常的逼真。不知道老師們會不會因為搭建地圖覺得麻煩，或是看到2D介面怕學生當遊戲在玩而不考慮這款軟體，換個角度思考，藉由不同地區的老師們集思廣益，打造出最適合學生學習的環境，像是不同學科的教室、戶外自然生態區、操場、籃球場等等....都可以更貼近真實校園，而像素的介面正好提高學生的學習意願，老師們擔心學生過於沉迷時，也能用全體廣播放上課鐘聲，或是讓學生們聚集在同一區，鏡頭站起來動一動 (另外推薦Active Arcade -> 趣味運動的APP )，就像早操一樣很真實。線上教學缺乏臨場感，Gather可以創造了讓大家「一起在一個遊戲世界」的凝聚力。縱使Google Meet、Teams 雖然也可以進行討論，但若要每堂課要穿梭在不同會議間，節奏不流暢，使用Gather可以讓學生更自由地移動，相對應的老師也可以神出鬼沒地到處「旁聽」。教孩子用科技解決問題，如果老師們也努力著示範給孩子看，創造出獨一無二的學習空間，相信對於孩子學習的歷程中，有莫大收穫。但到底怎麼開始使用？別擔心，這次快樂學程式邀請到Gahter界的大神阿岳，要來和大家分享Gather的6大應用技巧，限名額唷~…

5 years ago

HTML入門系列：基本觀念介紹！

HTML入門&基本觀念介紹！構成一個網頁，最重要的就是他的結構，而HTML就像是他的骨架，而CSS就是像是我們身體上的肌肉一般，而JS則像是人體的神經、血管般調整著我們身體、傳遞訊息，那麼HTML究竟是指哪些語法呢？什麼是HTML? HTML全文又稱為HyperText Markup language ，也就是所謂的超文本標記語言，是網頁構成的基本要素，換言之，網頁就是由一堆html所構成，透過瀏覽器，顯示文字、圖片、以及其他相關我們可以在網頁上看見的基本元素。而對於剛學程式的朋友來說，HTML有以下幾個重點： HTML的基本架構： HTML的基本觀念與優點1.容易學習-HTML的文檔製作非常簡單易懂﹐功能強大之餘還支持不同格式的文件鑲入。2.製作門檻低-HTML是文本﹐它需要瀏覽器的解釋。只要你學會了HTML﹐你就可以直接在Windows的記事本或寫字版上進行製作和編輯﹐當然你也可以用WPS來編寫﹐只要注意在存檔的時候用.htm或.html來做檔名就可以了3.有利於搜尋引擎理解你的內容，透過HTML所構成的頁面被稱作所謂的”靜態頁面”﹐而Google爬蟲會優先收錄靜態網頁﹐所以HTML對於Google來說就像是鯊魚聞到血腥味一樣﹐有利於吸引Google爬蟲。4.加快瀏覽速度-因為靜態網頁無需連接數據庫﹐因此比打開動態網頁的速度較快﹐對於消費者體驗來說有所幫助。5.網站更安全-因為HTML頁面不會受Asp相關漏洞所影響。 HTML的缺點與限制 1.太簡單﹐不能適應現在越來越發達的網路世界和應用的需要﹐比如手機﹑PDA﹑信息家電等都不能直接顯示HTML2.太龐大﹐由於HTML代碼不規范﹑臃腫﹐瀏覽器需要足夠智能和龐大才能夠正確顯示HTML。顯然在你的PDA上裝一個IE6是不可能的。空間不夠﹐運算也跟不上3.數據與表現混雜。這樣你的頁面要改變顯示﹐就必須重新制作HTML。對不同的網路設備顯示同樣的數據都需要制作不同的HTML4.只能對文本進行排版﹐而且HTML樣式使用標準文本標識﹐不能創建一些特殊效果所以我該如何學習HTML? 有什麼比較快的方法嗎？答案是沒有的﹐學習程式語言就像是學習廚藝一樣﹐只有透過不停的嘗試﹑嘗試和嘗試才能讓自己有所成長﹐並且慢慢強大。過程中你會一直遇上困難和失敗﹐但你在不斷解決困難的過程中能夠不斷發掘新的知識﹐從失敗中發才能不停的成長。無論你是學習那一種程式語言﹐都需要經歷困難和失敗才能讓自己更加強大﹐正所謂:不經一番寒徹骨，怎得梅花撲鼻香呢?對吧﹐我們能做的不是要找捷徑﹐而是透過不同的媒介和平台去不斷學習﹐那麼下面快樂學程式會為大家介紹一些很棒的程式教學網站﹐讓大家可以不斷提升自己。 1.w3schools.com- 語法練習的好地方這個網站是目前全球訪問量最大的網頁開發教程網站﹐網站裡有多種程式語言的教學﹐而且每種程式語言由淺到深的解說﹐從語言的介紹到不同的功能和方法都會分章節說明。所以無論你是從零開始學的白紙﹐還是已經在學習但遇到困難的新手都可以在這個網站上找到相關資訊﹐是個非常不錯的網站。那麼網址我們當然要雙手奉上﹐請慢用https://www.w3schools.com/ 2.CodeAcademy- 免費的教學網站這是全球其中一個最受歡迎的免費coding教學網站﹐已經有超過2400萬人透過這個網站學習到了如何去coding。這個網站是非常適合新手入門的同學去學習的﹐網站會一步一步仔細的教導而且還有實作﹐所以學習起來非常的快速! 3.StackOverflow- 實際案例與疑難雜症的解決處這個網站比較適合一些已經有在嘗試動手實作的同學﹐當你在coding的時候遇上困難了﹐那麼你可以在這個可以解決超過80種程式語言問題的網站上找到答案﹐讓你的coding之路更加順暢。如果你覺得爬網站麻煩又費時，不妨直接點擊快樂學程式的網頁前端課程，老師直接手把手帶你入門HTML ！完整的基礎入門課程省下你獨自摸索花費的時間！課程上架Udemy ! 準備一個輕鬆的週末，只要一天的時間，帶你建置靜態網頁。從實作中打開靜態網頁的大門，讓你的研究之路不是只有自己，有我們跟你一起努力！課程中你可以瞭解網站建置的世界觀與網站版型掌握HTML5的使用方式掌握 CSS3的使用方式使用Bootstrap處理前端UI框架現在開始上課！如果你的入門還在單打獨鬥，歡迎來到快樂學程式找到志同道合的夥伴，你的自學之路不孤單。快樂學程式

5 years ago

HTML語法整理! 3分鐘快速弄懂常用語法！

什麼是HTML? HTML全名是HyperText Markup Language，是一種描述超文件的註記語言SGML(Standard Generalized Markup Language)所制訂出的一種網頁語言，是編寫網頁的基本語言，基本上現行的瀏覽器都可以讀取HTML，使用HTML可以編輯設計出網頁，也可以在網頁中加入所有HTML語言可支援的方式，例如表格、表單、圖片、文字、連結、程式等等。 HTML介紹與基本語法整理不管你是小時候從撰寫無名小站為了要修改你的樣式，而開始瞭解HTML和CSS為何物，或是長大因為介面設計或前端工程開始踏入網頁的世界。HTML和CSS對於網站的重要性經過多年依然歷久不衰。在本篇會對HTML進行基礎的介紹並幫你整理出基本語法提供你在寫網頁時的快速參考！編寫基本的HTML：先讓大家看一下一個基本的HTML文件格式為： <HTML> <HEAD> <TITLE>網頁主題</TITLE> <Meta> </HEAD> <BODY>…

5 years ago

PHP是什麼?3分鐘PHP基本介紹！

PHP是什麼?3分鐘PHP基本介紹！大家安安﹐快樂學程式這一次要跟大家分享PHP這種程式語言。希望幫助對於PHP有興趣的新手們可以透過我們的文章對這種語言有初步認識。一如以往﹐我們會分享以下幾項有關PHP的知識。 PHP是什麼? PHP語言的全名是(PHP: Hypertext Preprocessor)，和ASP、JSP等都是動態網頁開發語言，不過，PHP擁有跨平台的能力，無論是在Linux(最適合)、Unix、 Windows都可以執行運作，不像微軟的ASP只能在Windows平台上執行，而且PHP是免費的，並可結合多種資料庫伺服器，如:MySQL、PostgreSQL、dBase、mSQL、Informix、ODBC、Oracle等。 PHP語言是伺服器端(Server)執行的網頁，不像一般HTML網頁，只要單機下開啟檔案就可以檢視網頁，PHP必須先在伺服器端執行完後，再將結果傳至使用者端(Client)的瀏覽器中檢視結果，所以必須使用網站伺服器，且伺服器要支援PHP。如何學好PHP? 要學好PHP，要有目的，要有一個想寫的東西，寫個學校網站，寫個校友系統，寫個簡單的新聞區或相簿...等，都可以，盡可能的和工作和生活結合，利用程式來簡化繁瑣的人工步驟，或者提昇工作效率，有目標，才會有動力，才會有想法。學PHP不需要背，背不完的，只要懂就好了。像函數就不用背，常用的打久了你就背起來了，不常用的，等到要用時，知道去哪裡找就好。換言之，函數懂越多，功力越高強。程式碼可以複製貼上，但一定要知道為什麼要這麼寫，不要傻傻的照著打，可以的話，自己打一遍最好，最上乘就是可以說出每一行程式碼的作用和前因後果。或者，故意打錯，看看會怎樣。錯誤訊息看久了，功力也就提昇了。 PHP程式碼執行方式透過 Web Server 方式:例如利用 Apache…

5 years ago

PHP是什麼?基本介紹與語法整理

Sildenafil citrate oral jelly Combiné avec les données de départs 2, on leur a demandé de type 5 de tadalafil…

5 years ago

利用Airbnb來更了解居住城市，以臺北為例 Python實作（下）

先說說流程：

看一下連續變數

資料處理（Data preprocessing）

合併表格

更細緻處理類別變數

接下來處理extra people 、calendar_update ：轉換為連續變量。

清理缺失值

建立訂價模型

Baseline

隨機森林

XGBRegressor

資料表格與洞察

結語，還可以怎麼優化？

完整程式碼

Related Post

Recent Posts

三個你不能錯過的教學資訊

線上教學沒有臨場感？Gather來幫你解決

HTML入門系列：基本觀念介紹！

HTML語法整理! 3分鐘快速弄懂常用語法！

PHP是什麼?3分鐘PHP基本介紹！

PHP是什麼?基本介紹與語法整理