fbpx
Python初學程式成長日誌機器學習

機器學習從零開始-簡單認識基礎概念 | Teresa初學者筆記

前言 嗨~我是Teresa,會有這篇筆記的產出是因為 10/29 會有一場蝦皮直播的線上小聚,主題是機器學習,這是 Teresa在正式開始學習Python前不斷重複聽到的應用領域之一,雖然印象很深,但對於這個熱門詞彙可以說是非常陌生,因此在聽蝦皮專家的分享前,想先對機器學習等相關知識架構先做一點基本功課。 活動資訊:https://pse.is/vk4jv 常見三大詞彙之間的關係 圖片來源:技術論壇 機器學習一詞常和人工智慧、深度學習一同出現甚至是混為一談,那三者之間的關係是什麼呢? 如果用一句話來解釋我想會是:「藉由深度學習等演算法技術可以建構出機器學習的手段以達到人工智慧的目的。」 什麼是機器學習Machine Learning? 機器學習通常可以這樣定義:「透過從過往的資料和經驗中學習並找到其運行規則,最後達到人工智慧的方法。」 白話來說機器學習是一種達到人工智慧的手段。透過程式讓電腦能夠從大量資料中學習到一個模式並讓它能對未接收過的資料做預判。 機器學習的根據? 從定義來看,機器學習需要很多過往的資料和經驗,大量資料也就是現在很熱門的話題之一:大數據。 很多時候光靠人力是看不出數據之間有什麼關聯性,數據中可能包含各種現象、事實與數字,但這些事實與數字是不需要提前被整理好的。而這些數據如果被輕易放掉是很可惜的,因此必須將數據轉為資料。 資料是能夠被「客觀」運算的最小單位,可用來作推論與計算。將資料有系統、有邏輯的整理過後就成為資訊,而資訊最後會被轉化成知識。這樣的過程可以被簡單分為五個階段:擷取資料、分析資料、洞察資訊、理解資訊、做決策(知識)。 大數據有4V的特性: 大量Volume:數據量越大,經過轉換所得出的模式越有根據,就如同做實驗時,樣本數越大,在相同的信賴區間下,可信度越高。 快速Variety:數據量大,且蒐集的資訊不斷的被更新,如果處理資料的速度不夠快,所得出的知識也會是過時的。 多樣Velocity:資料的種類是多樣的,可能包含基本資料、數據格式等等。 真實Veracity:不論你所用的技術多先進、過程做得再嚴謹,如果一開始的數據本身就不可信,那做出來的機器學習與得到的人工智慧都是空談,因此資料的真實(確)性是至關重要的。 從大數據演進到人工智慧,可以套用到狀況覺察理論 該理論的五大階段是:察覺→理解→預測→決策→行動(執行)…
Teresa
October 20, 2020