Podcast #15|全美最狂資料研究公司 Gartner 的 2021 科技宣言

https://open.firstory.me/embed/story/ckh7803sd7yz10878y12dtifi 萬眾矚目的 Gartner 預測又出來了!不知道大家有沒有第一時間接收到這個科技消息,如果沒有也沒關係~ 小白和小白學長用一集的時間把 2025 之前需要用到的核心技術全部轉交給你   本集 Podcast 會粗略分為 4 個部分分享,分別是「以人為本 (People Centricity)」、「雲端化」、「安全問題」和「自動化」,其中我們也會針對 IoB (行為聯網)、TX 全面體驗、分佈式雲 (distributed cloud)、隨處運營、網路安全…

4 years ago

Podcast #14: 每個程式語言都受用的神邏輯

https://open.firstory.me/embed/story/ckh4wenwe10eq08915tvzb4pr 如果你問我,邏輯可以用來做什麼? 我會毫不猶豫地和你說,邏輯可以征服全世界。掌握邏輯不僅可以清楚表達、免於被政治人物與新聞媒體誤導、方便與人辯論挑人語病(誤😝),還可以拿來寫程式呢😎  那就話不多說進入我們的 Podcast 節目聽聽吧!   本集的程式超級白將圍繞在「邏輯」和大家分享和討論 🤩,在此和大家預告節目中會提及的內容,「基本邏輯:若 P 則 Q ;若非 Q 則非 P」、「充分&必要條件之別」、「所有程式誒言共通 syntax:條件式 (if-else-elseif)、迴圈」、「淺談語法糖」🤩   Food…

4 years ago

Podcast #13: 你能想像被 AloT 技術攻佔的世界嗎?

https://open.firstory.me/embed/story/ckh1hcb4lx5bb0836rmx4qsvy 你能想像身邊的所有東西通通連上網嗎? 沒錯,我們在講的就是物聯網 (IoT) ,但相信身為讀者的你早已聽膩 IoT,所以我們今天要談談當 AI 遇上 IoT 的精彩火花 🎉   本集的程式超級白將會圍繞在三大主題 🤩,分別是「什麼是 AIoT? 」、「AIoT 和 5G  的超強結盟」和「AIoT 的各方面應用(智慧家電)」 …

4 years ago

網頁日記 # 6|Iris 程式小白

上週實作完徒手刻下拉式選單,這禮拜要來介紹偷吃步 —— 使用現成的 Bootstrap 來製作~ 但也別怪我這麼晚介紹這麼好用的功能,畢竟學習還是要從基本功開始一層一層堆疊上去 首先,你一定會問到:什麼是 Bootstrap 呢? 根據官網定義,Bootstrap 是一個利於快速製作響應式網站 (responsive web) 和致力於行動優先 (mobile-first) 的框架,它裡面用到的技術不外乎 HTML, CSS 和 Javascript,也就是前幾集介紹過的那些東西。…

4 years ago

Podcast #11: 區塊鏈其實沒這麼複雜!

https://open.spotify.com/episode/7njN4SOaTCfdCcdDXzoF59 區塊鏈 (Blockchain) 誕生於 2009 年中本聰的比特幣 (Bitcoin) 白皮書,經過比特幣、以太幣的洗禮,於 2018 年有顯著成長,並由美國顧問公司 Gartner 預測於 2025 達到技術面的成熟。 本集會談到區塊鏈的起源、原理,也會由拜占庭將軍問題帶入到區塊鏈的核心特性——去中心化(分散式帳本)、密碼學基礎、不可竄改性和共識決智慧合約(防偽低違約風險),這也帶到了其他層面的區塊鏈應用,譬如加密貨幣 (IOTA)、金融科技、音樂、Podcast 等等跌破眼鏡的新發展。號外,小白學長更會用簡單的舉例來讓大家更了解公私鏈、加密、雜湊函數等艱深字詞,也歡迎大家多多收聽支持👍 如果對區塊鏈有任何問題都可以在以下留言中提出~😍 也歡迎關注程式超級白以接收更多科技&程式新知唷~  …

4 years ago

Python網頁爬蟲—開發你的第一個網頁爬蟲

任務:爬取INSIDE硬塞網路趨勢觀察網站的文章標題和發布日期 第一步驟:安裝3個套件 request:發送請求到伺服端 beautifulsoup:解析伺服端回傳的網頁內容,也就是網頁原始碼。裡面內建的html解析套件,所分析出來的網頁原始碼有時候沒那麼準確,所以建議大家用lsml套件 lxml:解析xml、html原始碼的強大套件,解析出來的內容相對準確 第二步驟:網頁內容html原始碼的分析 在要爬取的地方按下滑鼠右鍵>檢查,chrome瀏覽器就會開啟開發人員工具,當你滑鼠停在哪邊它就會變色,這就是你在網頁上的位置 要爬取「INSIDE硬塞網路趨勢觀察網站」文章標題:它的網頁原始碼是h3,它的class是post_title,那等下要爬取時就是用h3這個html的標籤,而且它的class是post_title,這樣就可以定位到這個網頁的所有文章標題 要爬取「INSIDE硬塞網路趨勢觀察網站」發布日期:它的位置是hli的標籤,它的class是post_date的標籤,所以等下定位的時候,就是利用這個方式進行定位 第三步驟:以visual studio code為例開發網頁爬蟲 建立demo的資料夾 在資料夾底下建立scraper.py的檔案(python的檔案) 引入所需要的套件: beautifulsoup request:發送請求到網頁伺服端 get:去查詢網址的網頁內容,括號內寫入要傳的網頁網址,發送請求給伺服端後,它就會把這個網址的網頁內容回傳給我們,所以回傳給我們就要利用一個變數把它接起來(response) 用print的方式來看一下這個網頁的內容➡️回傳html原始碼,上面都帶有資料 第四步驟:把資料丟到beautifulsoup裡面請它幫我們解析…

4 years ago

Podcast #13: 你能想像被 AloT 技術攻佔的世界嗎?

https://open.firstory.me/story/ckh1hcb4lx5bb0836rmx4qsvy 你能想像身邊的所有東西通通連上網嗎? 沒錯,我們在講的就是物聯網 (IoT) ,但相信身為讀者的你早已聽膩 IoT,所以我們今天要談談當 AI 遇上 IoT 的精彩火花 🎉 本集的程式超級白將會圍繞在三大主題 🤩,分別是「什麼是 AIoT? 」、「AIoT 和 5G 的超強結盟」和「AIoT 的各方面應用(智慧家電)」 👉…

4 years ago

蝦皮直播回顧 Chrome Extension Q&A

首先,非常感謝蝦皮的後端資深工程師 Dayo 蒞臨快樂學程式的主題小聚直播活動來和各位觀眾互動,更感謝有熱情的觀眾捧場,讓這次的直播能順利落幕。   現在閱讀此篇的讀者,如果不想錯過一年都不見得有一次的聯合直播活動,趕緊手刀報名 10/29 的最後一場機器學習講座👍  精彩內容不容錯過~   Dayo 的有趣 demo: 功能為「價格不合理之提醒」,假若價格折數過低則會跳出 “My supervisor Messenger ID” 警示   第一部分:重點摘要…

4 years ago

網頁日記 #5 | Iris 程式小白

前面幾集已差不多把 JS 基本觀念做了一輪概括性的整理,這集我要來和大家示範如何製作最簡易的下拉式選單,也順便驗收&應用所學觀念,那我們就不囉唆~ Let’s get rolling!   首先,製作最基礎的下拉式選單需要的是簡單的 HTML 和 CSS 觀念,甚至如果你只需要滑鼠游標 hover 到按鈕上就能展開選單的功能,那你根本不需要動用到 JS。今天小白🙆‍♀️ 我會分享不需要用到 JS 和必需要用到 JS 的下拉式選單版本,對…

4 years ago

網頁爬蟲五個基本觀念

網頁爬蟲是網頁機器人,可以自動化模擬使用者,依照特定的模式與規則,爬取網頁的背後原始碼,就可以解析取得想要的資料,不一定要使用python才能實作,其他像java、C++、javascript,也可以開發,但python的語法比較簡潔,也有比較成熟的框架或套件可以使用,所以大部分通常使用python來開發。 網路的架構主要分用戶端(電腦、手機、平板)和伺服端。比如說,在瀏覽博客來網頁時,通常會點擊網頁來了解書本詳細內容,點擊動作背後會請求網址,這個網址就會回傳博客來伺服器,博客來收到這段網址的時候就會知道這個使用者想要看的書本內容是哪個網頁,它收到後就會開始處理,把網頁的原始碼內容回傳給用戶端,用戶端經過瀏覽器解析來顯示我們看到網頁的樣子。 兩個開發網頁爬蟲重要觀念:請求方法、等待回應 有兩個開發網頁爬蟲需要特別注意的地方,第一是請求方法,第二就是等待回應,用戶端如果要看網頁就是請求一個網址到伺服端,那請求方法分成:get(查詢)、post(新增)、put(修改)、delete(刪除),因為開發網頁爬蟲時是想查詢這個網址的網頁內容是什麼,通常都是使用get(查詢)來跟伺服端溝通。然後就是等待回應,要特別注意的地方是,伺服端不會馬上回應,會等待一些時間,如果等待回應的機制沒有處理好就開始進行爬取,可能在爬取時爬不到任何東西,可能是伺服端還沒處理完,原始碼也還沒到用戶端,所以在爬取時就爬不到任何東西,所以等待回應機制非常重要,通常有三種等待機制:sleep(強制等待)、implicit wait(隱式等待)、explicit wait(顯示等待)。sleep(強制等待)就是強迫網頁爬蟲暫停一定秒數;implicit wait(隱式等待)就是設定最長等待時間,但若伺服端提早處理完成,網頁爬蟲就不會等滿時間,直接往下執行;explicit wait(顯示等待)就是明確指定等待網頁上某個區塊、元件只要網頁原始碼處理完成,就算其他還沒載入完成,但要等的那個區塊已完成就會往下執行。這三個等待機制可以視情況來使用,若三個等待機制能處理適當,會提高爬蟲爬取效率。 三個常見的套件及框架:beautiful soup、selenium、scrapy 伺服端回應給用戶端的網頁原始碼是由許多標籤和標籤所形成的元素構成的,瀏覽器會知道它的擺放位置,是因為網頁是個階層結構。但要爬取的資料不是標籤,這時候就需要套件或框架來協助定位元素和去掉標籤。基本上使用python來開發網頁爬蟲時常見的有三種套件,分別有beautiful soup、selenium、scrapy。 beautiful soup對HTML及、XML的解析非常友善,容易入門,但只適用於靜態類型的網頁。現在有許多社群平台(ex. FB、IG)、電子商務網站,通常會透過滾動捲軸的方式讓網頁載入更多資料,beautiful soup就無法達到。這種情形就需要搭配selenium套件來進行爬取,因為selenium套件被用來設計進行網頁自動化測試,所以可以很實際模擬人類操作瀏覽器的動作,例如:開啟瀏覽器、滾動捲軸、輸入帳密或是點擊查詢按鈕等等,要爬取這樣的網站的話就非常適合搭配selenium套件進行操作,它最大特色是可以搭配javascript,所以才可以自動化滾動捲軸,讓網頁自動化載入更多的網頁內容進行爬取。scrapy框架比較適合大型爬蟲專案,因為他能夠爬取大量資料、具有非同步的功能,速度比較快、有效率,對於初學者來說會需要一段時間來學習。 最常見的網頁爬蟲開發流程 謝謝這週二下班讀書會的講師Mike,以下是他提供的相關學習資源:

4 years ago