延續上一篇:利用Airbnb來更了解臺北,這篇我們就要來把自己當成是Airbnb的資料科學家,嘗試建立房屋的訂價模型。
這篇文章並不是一個「教你建立精準訂價的模型」的學術性文章,因為建立非常準確的模型是很花時間、又很費工夫的,一篇文章絕對寫不完,加上個人的時間有限,本篇處理變數與特徵的手法難免會粗糙一點(甚至最後還有嚴重的overfit),但是可以讓您一起做機器學習的模型,嘗試體驗一下訂價與逼近最優解的過程。準備好了,就打開電腦跟著一起做吧!
最下方也有完整的程式碼,做完可以參考看看哦!
“3:”意思是從第四個變數開始,因為前三個變數是id類型的變數,雖然Airbnb的訂價走向個人化了,id應該也藏著一些能夠讓機器學習的特徵,但這邊為了簡單一點,我們就把不重複數量過多的id類型變數先剔除掉。
接下來畫出相關係數圖,我喜歡用熱點圖來方便看出變數之間的相關性。
看到price那行,我們可以發現guests included 以及accommodates跟price算是最相關的,這蠻符合直覺,也跟上一篇我們做探索性資料分析時得到的insight一致。
第一步還是清資料,將離群值、NaN值太多的變數刪掉。
另外重複值太多的變數也要刪掉,因為如果表現不出差異性,其實對模型的學習是沒什麼幫助的。就好像猜硬幣,左手跟右手如果沒有明顯的差異,很難判斷跟預測說哪一隻手「有硬幣」,其實機器學習的預測就是如此,我們要嘗試建立多個差異大的特徵,讓模型比較好判斷並做出決策。
因為價格從Box plot可以看到有太多離群值,所以我們踢除掉一部分的離群值。
方便起見直接把NaN值剔除掉,填補缺失值的方式很多,有重新建模、統計變量填補,甚至一些模型其實可以吃缺失值(其實就是把缺失也當作一種特徵),缺失值在實際場景中其實蠻常看到的,包括資料無法取得(客戶不願意填寫)、資料不存在、機器故障,根據真實場景會有不同、更有意義的填補方式,那這邊我們還是先刪掉就好。
記得我們上一篇有看到的amenities屬性嗎?它裡面是存放許多個文字資料的,因此我們還要對文字變量分詞與編碼,這部分利用詞頻統計就好囉!
CountVectorizer可以協助我們點名
做出來的結果會是下圖,就是看每個房源「有沒有這個配備」,有的話就是1,沒有則是0。
這是一個高達127個維度的DataFrame,物件真的很多很複雜啊….
接下來挑出根本沒有差異的變數,比如使用的資料都是臺北市,像是Country、Country code就都一樣了,對模型沒有幫助,可以踢除掉。
接下來因為像是True、False等資料是電腦看不懂的,他們只認數字,所以我們就把True編碼為1,False編碼為0,跟上面的文字資料轉換「有無」邏輯相通。
將目前的DataFrame與剛剛的amenities表格合併在一起,可以看到變成一張168維度的大表格。
從上面這張表我們也可以發現還有許多文字資料對不對?這些文字對我們的model來說是看不懂的,我們必須利用編碼(Encoder)的技術來轉換文字資料,讓它們變成數字。
簡單來說,如果我們發現類別變量之間沒有明顯的關係,那就可以用One hot encoding,如果存在某種Order關係,好比對衣服大小來說,衣服的S、L、XL是有意義的,對機票的價格來說,機票的頭等艙、商務艙、經濟艙是有意義的,那我們就可以用Label encoding。如果是發現不同level有更具備可解釋的差異,好比不同商品品種的「價格帶」具備差異(比如小米跟紅米同樣都是來自小米公司,但是他們針對的TA就不同,價格帶也有明顯差異),相比Label可以更好描述,那就可以用Target encoding,不過Target encoding有個小問題是可能會存在data leakage(特徵洩漏)的問題,比如統計好每種品類的平均價格,模型就可以間接得知價格的上下限是多少,所以使用的時候要蠻小心的,不要用到太細的target。
從上面的編碼介紹我們也可以看到,其實很難說「看到什麼就用什麼編碼」,一切都是端看「所分析、預測的目標」是什麼,才有不同的編碼含義。如果想了解更多「商業目標與機器學習」的內容,可以看我之前的這篇文章:領域專家?利用管理顧問的技巧做特徵工程。
更多常用的編碼技巧可以看這篇機器學習馬拉松的文:特徵工程的編碼技術
我這邊是這樣做的:
接下來針對上面的編碼,我們寫兩個函數來方便重複操作。
啊啊!還發現了仍然有些變數沒有差異性,所以再把他們刪除掉,當變數太多有時候還是會有漏網之魚,要小心檢查。
不過calendar update有點棘手,因為它的資料沒有徹底格式化,分成N週前、N天前、N月前,為了判斷時間,我們想把資料轉換為以天為單位的連續資料,而比較大的時間單位就乘上相對應的天數就好囉!
這邊的程式碼會比較複雜,腦袋打結的人可以直接複製貼上,或者想訓練處理時間資料的人可以自己練習寫寫看,如果換到Excel、PowerBI,又可以怎麼處理呢?可以好好想想哦!
仔細看,我們發現extra people有少許缺失值,所以我們簡單用mode(眾數)填補。
這邊由於建模並非這份資料集的重點,因此我只會帶過基本的特徵處理、以及快速地建一個模型出來,也就是說這邊的model算是只做出一個baseline,如果要進行數據科學比賽,我個人的習慣還會搞剛許多、可能光是特徵工程就會分好幾篇來寫XXD
建模之前有些必須要做的資料處理,好比數據縮放,簡單的方式是直接把它標準化,因為有些演算法是基於距離的,如果距離的尺度相差太多,通常模型不會表現得很好,其中又有分為「最大最小縮放」與「標準化」。
通常我是使用標準化,這是因為許多線性模型中,比如Logistic regression (特別注意一下,Logistic regression是一個分類而不是迴歸模型),會初始化「加權」為0或者接近0的一個很小隨機值,使用標準化可以讓特徵縮放之後的平均值為0,標準差為1,特徵會滿足常態分佈,使得加權學習更容易完成。不過其實也要看面對什麼樣的資料以及問題,並沒有說哪個方法比較好,只有比較「適合目前的情況」而已。
疫情之下,原本實體活動全都改成線上,活動分享全都在網路上很容易錯過,這邊整理了幾個跟數位教學相關的活動資訊給大家參考,分享順序為活動時間⏰ 1. Google Workspace技術整合術 Google Workspace for Education (原 G Suite 教育版) 能透過 Gmail、Google Drive、Google Calender、Google Meet 和 Classroom 等通訊與協作應用程式創造輕鬆與順暢的學習環境,並促進協同合作以提升數位學習與教學成效,而且還會為學校資料提供雲端安全性防護…
實體的教室變成一格一格的畫面,原本吵雜的下課時間也變成掛斷通話的系統聲。原本在班級中的歸屬感慢慢消失了,久而久之,孩子的對於學習,不再有群體的感覺,只是孤軍一人學習、複習、考試,甚至是畢業典禮都少了一份臨場感。因此,今天要和大家介紹一款現在在教育界還很少被提到的軟體-Gather。 Gather 如果你還不知道Gather,或是直覺的把Gather與虛擬會議室連結在一起,不妨先看看Gather裡的特色: 介面是像素型RPG 每個人自由創建一個角色 上下左右輕易控制角色 走道其他角色旁邊能互相討論 小遊戲battle 光是這五點特色,就足以推派它成為遠距教學的工具,除了打造不同空間的地圖外,最特別的是Gahter打造前所未有的臨場感,人與人之間只有靠近到一定距離,才能聽到彼此說話聲音,而相對應的,離開後聲音就會漸漸聽不到,就連白噪音的設計也是如此,非常的逼真。 不知道老師們會不會因為搭建地圖覺得麻煩,或是看到2D介面怕學生當遊戲在玩而不考慮這款軟體,換個角度思考,藉由不同地區的老師們集思廣益,打造出最適合學生學習的環境,像是不同學科的教室、戶外自然生態區、操場、籃球場等等....都可以更貼近真實校園,而像素的介面正好提高學生的學習意願,老師們擔心學生過於沉迷時,也能用全體廣播放上課鐘聲,或是讓學生們聚集在同一區,鏡頭站起來動一動 (另外推薦Active Arcade -> 趣味運動的APP ),就像早操一樣很真實。 線上教學缺乏臨場感,Gather可以創造了讓大家「一起在一個遊戲世界」的凝聚力。縱使Google Meet、Teams 雖然也可以進行討論,但若要每堂課要穿梭在不同會議間,節奏不流暢,使用Gather可以讓學生更自由地移動,相對應的老師也可以神出鬼沒地到處「旁聽」。 教孩子用科技解決問題,如果老師們也努力著示範給孩子看,創造出獨一無二的學習空間,相信對於孩子學習的歷程中,有莫大收穫。但到底怎麼開始使用?別擔心,這次快樂學程式邀請到Gahter界的大神 阿岳,要來和大家分享Gather的6大應用技巧,限名額唷~…
HTML入門&基本觀念介紹! 構成一個網頁,最重要的就是他的結構,而HTML就像是他的骨架,而CSS就是像是我們身體上的肌肉一般,而JS則像是人體的神經、血管般調整著我們身體、傳遞訊息,那麼HTML究竟是指哪些語法呢? 什麼是HTML? HTML全文又稱為HyperText Markup language ,也就是所謂的超文本標記語言,是網頁構成的基本要素,換言之,網頁就是由一堆html所構成,透過瀏覽器,顯示文字、圖片、以及其他相關我們可以在網頁上看見的基本元素。而對於剛學程式的朋友來說,HTML有以下幾個重點: HTML的基本架構: HTML的基本觀念與優點1.容易學習-HTML的文檔製作非常簡單易懂﹐功能強大之餘還支持不同格式的文件鑲入。2.製作門檻低-HTML是文本﹐它需要瀏覽器的解釋。只要你學會了HTML﹐你就可以直接在Windows的記事本或寫字版上進行製作和編輯﹐當然你也可以用WPS來編寫﹐只要注意在存檔的時候用.htm或.html來做檔名就可以了3.有利於搜尋引擎理解你的內容,透過HTML所構成的頁面被稱作所謂的”靜態頁面”﹐而Google爬蟲會優先收錄靜態網頁﹐所以HTML對於Google來說就像是鯊魚聞到血腥味一樣﹐有利於吸引Google爬蟲。4.加快瀏覽速度-因為靜態網頁無需連接數據庫﹐因此比打開動態網頁的速度較快﹐對於消費者體驗來說有所幫助。5.網站更安全-因為HTML頁面不會受Asp相關漏洞所影響。 HTML的缺點與限制 1.太簡單﹐不能適應現在越來越發達的網路世界和應用的需要﹐比如手機﹑PDA﹑信息家電等都不能直接顯示HTML2.太龐大﹐由於HTML代碼不規范﹑臃腫﹐瀏覽器需要足夠智能和龐大才能夠正確顯示HTML。顯然在你的PDA上裝一個IE6是不可能的。空間不夠﹐運算也跟不上3.數據與表現混雜。這樣你的頁面要改變顯示﹐就必須重新制作HTML。對不同的網路設備顯示同樣的數據都需要制作不同的HTML4.只能對文本進行排版﹐而且HTML樣式使用標準文本標識﹐不能創建一些特殊效果 所以我該如何學習HTML? 有什麼比較快的方法嗎? 答案是沒有的﹐學習程式語言就像是學習廚藝一樣﹐只有透過不停的嘗試﹑嘗試和嘗試才能讓自己有所成長﹐並且慢慢強大。過程中你會一直遇上困難和失敗﹐但你在不斷解決困難的過程中能夠不斷發掘新的知識﹐從失敗中發才能不停的成長。無論你是學習那一種程式語言﹐都需要經歷困難和失敗才能讓自己更加強大﹐正所謂:不經一番寒徹骨,怎得梅花撲鼻香呢?對吧﹐我們能做的不是要找捷徑﹐而是透過不同的媒介和平台去不斷學習﹐那麼下面快樂學程式會為大家介紹一些很棒的程式教學網站﹐讓大家可以不斷提升自己。 1.w3schools.com- 語法練習的好地方這個網站是目前全球訪問量最大的網頁開發教程網站﹐網站裡有多種程式語言的教學﹐而且每種程式語言由淺到深的解說﹐從語言的介紹到不同的功能和方法都會分章節說明。所以無論你是從零開始學的白紙﹐還是已經在學習但遇到困難的新手都可以在這個網站上找到相關資訊﹐是個非常不錯的網站。那麼網址我們當然要雙手奉上﹐請慢用https://www.w3schools.com/ 2.CodeAcademy- 免費的教學網站這是全球其中一個最受歡迎的免費coding教學網站﹐已經有超過2400萬人透過這個網站學習到了如何去coding。這個網站是非常適合新手入門的同學去學習的﹐網站會一步一步仔細的教導而且還有實作﹐所以學習起來非常的快速! 3.StackOverflow- 實際案例與疑難雜症的解決處 這個網站比較適合一些已經有在嘗試動手實作的同學﹐當你在coding的時候遇上困難了﹐那麼你可以在這個可以解決超過80種程式語言問題的網站上找到答案﹐讓你的coding之路更加順暢。 如果你覺得爬網站麻煩又費時,不妨直接點擊快樂學程式的網頁前端課程,老師直接手把手帶你入門HTML !完整的基礎入門課程省下你獨自摸索花費的時間! 課程上架Udemy ! 準備一個輕鬆的週末,只要一天的時間,帶你建置靜態網頁。從實作中打開靜態網頁的大門,讓你的研究之路不是只有自己,有我們跟你一起努力!課程中你可以瞭解網站建置的世界觀與網站版型掌握HTML5的使用方式掌握 CSS3的使用方式使用Bootstrap處理前端UI框架現在開始上課!如果你的入門還在單打獨鬥,歡迎來到快樂學程式找到志同道合的夥伴,你的自學之路不孤單。快樂學程式
什麼是HTML? HTML全名是HyperText Markup Language,是一種描述超文件的註記語言SGML(Standard Generalized Markup Language)所制訂出的一種網頁語言,是編寫網頁的基本語言,基本上現行的瀏覽器都可以讀取HTML,使用HTML可以編輯設計出網頁,也可以在網頁中加入所有HTML語言可支援的方式,例如表格、表單、圖片、文字、連結、程式等等。 HTML介紹與基本語法整理 不管你是小時候從撰寫無名小站為了要修改你的樣式,而開始瞭解HTML和CSS為何物,或是長大因為介面設計或前端工程開始踏入網頁的世界。HTML和CSS對於網站的重要性經過多年依然歷久不衰。在本篇會對HTML進行基礎的介紹並幫你整理出基本語法提供你在寫網頁時的快速參考! 編寫基本的HTML: 先讓大家看一下一個基本的HTML文件格式為: <HTML> <HEAD> <TITLE>網頁主題</TITLE> <Meta> </HEAD> <BODY>…
PHP是什麼?3分鐘PHP基本介紹! 大家安安﹐快樂學程式這一次要跟大家分享PHP這種程式語言。希望幫助對於PHP有興趣的新手們可以透過我們的文章對這種語言有初步認識。一如以往﹐我們會分享以下幾項有關PHP的知識。 PHP是什麼? PHP語言的全名是(PHP: Hypertext Preprocessor),和ASP、JSP等都是動態網頁開發語言,不過,PHP擁有跨平台的能力,無論是在Linux(最適合)、Unix、 Windows都可以執行運作,不像微軟 的ASP只能在Windows平台上執行,而且PHP是免費的,並可結合多種資料庫伺服器,如:MySQL、PostgreSQL、dBase、mSQL、Informix、ODBC、Oracle等。 PHP語言是伺服器端(Server)執行的網頁,不像一般HTML網頁,只要單機下開啟檔案就可以檢視網頁,PHP必須先在伺服器端執行完後,再將結果傳至使用者端(Client)的瀏覽器中檢視結果,所以必須使用網站伺 服器,且伺服器要支援PHP。 如何學好PHP? 要學好PHP,要有目的,要有一個想寫的東西,寫個學校網站,寫個校友系統,寫個簡單的新聞區或相簿...等,都可以,盡可能的和工作和生活結合,利用程式來簡化繁瑣的人工步驟,或者提昇工作效率,有目標,才會有動力,才會有想法。 學PHP不需要背,背不完的,只要懂就好了。像函數就不用背,常用的打久了你就背起來了,不常用的,等到要用時,知道去哪裡找就好。換言之,函數懂越多,功力越高強。 程式碼可以複製貼上,但一定要知道為什麼要這麼寫,不要傻傻的照著打,可以的話,自己打一遍最好,最上乘就是可以說出每一行程式碼的作用和前因後果。或者,故意打錯,看看會怎樣。錯誤訊息看久了,功力也就提昇了。 PHP程式碼執行方式 透過 Web Server 方式:例如利用 Apache…
Sildenafil citrate oral jelly Combiné avec les données de départs 2, on leur a demandé de type 5 de tadalafil…