Categories: Python工程思維

不想起身關燈?那就用 Python 寫出能辨識動作的神經網路吧!

常用 Python 的你,真的了解他嗎?

一位來自義大利的工程師顛覆網友們對 Python 的想像!

他不做常見的爬蟲、資料分析與視覺化,他做出能辨識動作的神經網路!真的太強大啦!

[以下為自原文翻譯之內文]

打造舞步來控制電源

在今天的文章裡,我將教大家訓練一個神經網路模型,可用來識別鏡頭錄下的「舞步」,並用這些「舞步」控制燈的開關。

我們將在已有的 OpenPose 深度學習模型上建立我們的模型來識別身體位置,然後我們會建立一些樣本來代表身體的各種麼樣。

當我們建立好舞步和其他姿勢的樣本後,我們會清理數據集,然後利用這些樣本來訓練我們製作出的神經網路。

當神經網路訓練好之後,我們會用它來控制燈光。

今天的文章包括很多步驟,不過,所有的程式碼都在 Github 上,上面還包括了我已經蒐集到的原始數據樣例。

使用數據集建立自己的神經網路

首先就是大量的數據。

我們即將採用的神經網路模型,過去卡內基梅隆大學團隊也曾經使用過,他們用自己的全景數據集來訓練模型。
該數據集包括五個半小時的影片,包含了 1,500,000 個手動添加的代表骨骼位置標籤。

整個工作室的圓屋頂上裝有 500 個鏡頭,所有鏡頭皆對準人,分別從不同角度記錄他們的動作。

這個全景工作室用構造訓練數據集幾乎是完美的,對於進行電腦視覺的實驗來說非常方便。

今天,我們將建立在他們工作基礎之上開始我們的工作。首先我們會用他們的工具來創建一個很小的數據集。最終的神經網路只會使用 171 個姿勢,每一個姿態都是從卡內基梅隆大學已有的工作中提取出來的。

神經網路有一個好處,就是你可以使用別人已經建構完成的模型,然後加入一些新的神經網路層,以此來擴展該模型。這個過程被稱之為遷移學習,因此我們可以用有限的資源來進行遷移學習。

從技術上來說,我們不會在這個項目中使用遷移學習,因為我們會對 OpenPose 的工作做一些細微的修改,然後建立一個獨立的神經網路。

那麼問題來了,我們該如何獲取數據呢?

寫一個程式,並利用 OpenCV 來收集帶標籤的數據

使用 OpenPose 的成果,我們得到了 25 個代表人體骨骼架構的標籤。我們可以寫一個程式來控制網絡鏡頭,在圖像上運行 OpenPose,然後將動作與鍵盤上的按鍵相對應。

也就是說,我們做出一個 T-Pose 的動作,然後在鍵盤上點擊 M 鍵,那麼這個動作就被歸到 T-Pose 那一類裡。我們按照這個方法去添加 171 個不同的姿勢,這樣一來,我們就有數據訓練神經網路了。以下是用於數據收集的程式碼範例(完整版請看 GitHub):

然後用 NumPy 的數組來儲存特徵,並用 np.save 函數把特徵保存為二進制文件以便後續使用。我個人傾向於使用 Jupyter notebook 來觀察和處理數據。

當數據收集好之後,我們可以觀察並清理數據,以便更好地去訓練模型。

觀察、清理並使用數據訓練模型

這部分看上去很複雜,但是透過使用 Jupyter notebook、NumPy 和 Keras,我們就可以很直觀地去觀察數據、清理數據,並且使用數據來訓練神經網路。

根據我們的截圖,我們可以發現 npy 文件中保存的數據和 OpenPose 模型本身都有三個維度,25 個已知的身體位置坐標點,X、Y、以及 Confidence。

我們的模型訓練工作不需要用到 confidence。如果某個身體位置坐標點被命名了,我們就保留它,否則,我們就直接讓它為 0。

我們已經把(絶大部分)數據整理好了,現在我們需要把數據特徵和標籤結合起來。

我們用 0 代表其他姿勢,1 代表嘻哈超人舞步、2 代表 T-Pose 舞步。

接下來,我們可以使用獨熱編碼處理我們的數字標籤。也就是說,我們將標籤 0、1、2 轉換成 [1,0,0]、[0,1,0]、[0,0,1]。之後,我們可以使用 sklearn 的 shuffle 函數將數據標籤和特徵打亂(數據標籤和特徵仍保持原有的對應關係)

我們的輸入數據代表著鼻子、手等等的位置,而它們的是介於 0 到 720 和 0 到 1280 之間的像素值,所以我們需要把數據單一化,這樣一來,我們可以重複使用我們的模型而不用考慮輸入圖片數據的解析度。(完整版請看 GitHub

在最後一步中,我們將把我們的多維數據變成一維。我們會分批向模型輸入 50 個位置資訊(25 個部位,每個部位的 X 和 Y 值)。

建構並訓練動作辨識模型

在 Jupyter notebook 中使用 Keras,可以把訓練和測試神經網路模型的工作變得十分簡單,這也是我最喜歡 Keras 的地方。

現在我們的數據已經貼上標籤準備就緒了,我們可以開始訓練一個簡單的模型了,只需要幾行程式碼。

現在我們導入 Keras 庫,然後訓練一個簡單的神經網路模型。

搞定!

這裡有個稍微需要注意的地方,輸入層的大小為 50,提醒大家一下,這個數字是 OpenPose 模型中,位置點的 X 坐標和 Y 坐標數量之和。

最後我們用到了 Softmax 層,它是用來分類的。我們將 y.shape[1] 傳入該層,這樣我們的模型就知道不同類別的數量了。

最後的最後,我們使用輸入數據,用 model.fit() 的方法去訓練模型。這裡,我已經做了 2000 次疊代(全部樣本訓練一次為一次疊代)。2000 次疊代貌似有點多了,500 次左右的疊代可能更好,因為疊代次數過多可能使我們的模型出現一些過度擬合問題。但是不論是哪一種情況,你都需要經過多次嘗試來確定疊代次數。

當我們運行這段程式碼時,我們會看到準確度在提高。如果你看不到,請再次確認當你打亂數據時,數據標籤和數據特徵的對應關係是不變的。此外,也要確認數據裡的數值是不是在 0 到 1 之間。

最後,我們可以保存訓練後的模型,也可以使用樣本數據集來測試該模型,保存模型的程式碼很簡單(完整版請看 GitHub):

一切就緒,用模型來控制燈光吧!

我們現在已經有了可以識別姿勢的模型,接下來要做的只是把這個模型和無線燈光控制連結起來就行了。

在我的這個例子中,我使用 Aeotec Z-Stick 來發送 Z-Wave 指令,並配有兩個 GE Z-Wave 的室外開關。USB 插到 NVIDIA TX2 人工智能模組,其實 NVIDIA 的 Jestson Nano 也能勝任,儘管 Jetson Nano 所能提供的解析度要低於我範例中 1280×720 的解析度。當 Z-Stick 插到 ARM 設備後,你首先需要把開關調到 Z-Wave 模式,可能需要多按幾下 USB Stick 上的按鈕和燈的開關。

程式碼並不複雜,基本上就是訓練環境再加上一個額外的步驟。現在,我們導入 Keras,然後使用整理過的數據訓練模型。(完整版請看 GitHub

到了這一步,工作基本上就算完成了!

我們成功地訓練了一個用於識別嘻哈超人舞步、T-Pose 舞步的神經網路模型,然後我們可以讓它根據我們的舞步來製造可互動的燈。

太棒了,給自己按個讚!

建議:在 Jupyter notebook 上測試

所有程式碼、模型以及訓練數據都免費公佈在 Github 上。

我建議你們在 Jupyter notebook 上試試這個項目。我的程式碼中有個 bug,我一直無法從自己的工作簿中找出來。這個漏洞導致我的原始的 X 和 Y 標籤並沒有被正確地標記。如果你找到了解決這個 bug 的方法,記得在 Github 上建立一個 Pull Request(PR)。

另外,我們今天建構的基礎模型可以用來訓練很多類型的舞蹈動作。儘管我的模型每秒只能捕捉很少的畫面,但我們可以開始建立一個有關舞步的數據集,然後再建構一個能識別這些不同舞步的神經網路模型。

我還為剛開始學寫程式的人寫了本書,歡迎你們來看看這本書。


本文轉自原文《Building Dance Controlled Lights with Python》與大數據文摘之翻譯文章《程序员深夜用Python跑神经网络,只为用中二动作关掉台灯!》

如果你喜歡他們的文章,歡迎回到原文觀看更多:)

學程式助教

Recent Posts

三個你不能錯過的教學資訊

疫情之下,原本實體活動全都改成線上,活動分享全都在網路上很容易錯過,這邊整理了幾個跟數位教學相關的活動資訊給大家參考,分享順序為活動時間⏰ 1. Google Workspace技術整合術 Google Workspace for Education (原 G Suite 教育版) 能透過 Gmail、Google Drive、Google Calender、Google Meet 和 Classroom 等通訊與協作應用程式創造輕鬆與順暢的學習環境,並促進協同合作以提升數位學習與教學成效,而且還會為學校資料提供雲端安全性防護…

4 years ago

線上教學沒有臨場感?Gather來幫你解決

實體的教室變成一格一格的畫面,原本吵雜的下課時間也變成掛斷通話的系統聲。原本在班級中的歸屬感慢慢消失了,久而久之,孩子的對於學習,不再有群體的感覺,只是孤軍一人學習、複習、考試,甚至是畢業典禮都少了一份臨場感。因此,今天要和大家介紹一款現在在教育界還很少被提到的軟體-Gather。 Gather 如果你還不知道Gather,或是直覺的把Gather與虛擬會議室連結在一起,不妨先看看Gather裡的特色: 介面是像素型RPG 每個人自由創建一個角色 上下左右輕易控制角色 走道其他角色旁邊能互相討論 小遊戲battle 光是這五點特色,就足以推派它成為遠距教學的工具,除了打造不同空間的地圖外,最特別的是Gahter打造前所未有的臨場感,人與人之間只有靠近到一定距離,才能聽到彼此說話聲音,而相對應的,離開後聲音就會漸漸聽不到,就連白噪音的設計也是如此,非常的逼真。 不知道老師們會不會因為搭建地圖覺得麻煩,或是看到2D介面怕學生當遊戲在玩而不考慮這款軟體,換個角度思考,藉由不同地區的老師們集思廣益,打造出最適合學生學習的環境,像是不同學科的教室、戶外自然生態區、操場、籃球場等等....都可以更貼近真實校園,而像素的介面正好提高學生的學習意願,老師們擔心學生過於沉迷時,也能用全體廣播放上課鐘聲,或是讓學生們聚集在同一區,鏡頭站起來動一動 (另外推薦Active Arcade -> 趣味運動的APP ),就像早操一樣很真實。 線上教學缺乏臨場感,Gather可以創造了讓大家「一起在一個遊戲世界」的凝聚力。縱使Google Meet、Teams 雖然也可以進行討論,但若要每堂課要穿梭在不同會議間,節奏不流暢,使用Gather可以讓學生更自由地移動,相對應的老師也可以神出鬼沒地到處「旁聽」。 教孩子用科技解決問題,如果老師們也努力著示範給孩子看,創造出獨一無二的學習空間,相信對於孩子學習的歷程中,有莫大收穫。但到底怎麼開始使用?別擔心,這次快樂學程式邀請到Gahter界的大神 阿岳,要來和大家分享Gather的6大應用技巧,限名額唷~…

4 years ago

HTML入門系列:基本觀念介紹!

HTML入門&基本觀念介紹!         構成一個網頁,最重要的就是他的結構,而HTML就像是他的骨架,而CSS就是像是我們身體上的肌肉一般,而JS則像是人體的神經、血管般調整著我們身體、傳遞訊息,那麼HTML究竟是指哪些語法呢?   什麼是HTML?       HTML全文又稱為HyperText Markup language ,也就是所謂的超文本標記語言,是網頁構成的基本要素,換言之,網頁就是由一堆html所構成,透過瀏覽器,顯示文字、圖片、以及其他相關我們可以在網頁上看見的基本元素。而對於剛學程式的朋友來說,HTML有以下幾個重點: HTML的基本架構: HTML的基本觀念與優點1.容易學習-HTML的文檔製作非常簡單易懂﹐功能強大之餘還支持不同格式的文件鑲入。2.製作門檻低-HTML是文本﹐它需要瀏覽器的解釋。只要你學會了HTML﹐你就可以直接在Windows的記事本或寫字版上進行製作和編輯﹐當然你也可以用WPS來編寫﹐只要注意在存檔的時候用.htm或.html來做檔名就可以了3.有利於搜尋引擎理解你的內容,透過HTML所構成的頁面被稱作所謂的”靜態頁面”﹐而Google爬蟲會優先收錄靜態網頁﹐所以HTML對於Google來說就像是鯊魚聞到血腥味一樣﹐有利於吸引Google爬蟲。4.加快瀏覽速度-因為靜態網頁無需連接數據庫﹐因此比打開動態網頁的速度較快﹐對於消費者體驗來說有所幫助。5.網站更安全-因為HTML頁面不會受Asp相關漏洞所影響。 HTML的缺點與限制 1.太簡單﹐不能適應現在越來越發達的網路世界和應用的需要﹐比如手機﹑PDA﹑信息家電等都不能直接顯示HTML2.太龐大﹐由於HTML代碼不規范﹑臃腫﹐瀏覽器需要足夠智能和龐大才能夠正確顯示HTML。顯然在你的PDA上裝一個IE6是不可能的。空間不夠﹐運算也跟不上3.數據與表現混雜。這樣你的頁面要改變顯示﹐就必須重新制作HTML。對不同的網路設備顯示同樣的數據都需要制作不同的HTML4.只能對文本進行排版﹐而且HTML樣式使用標準文本標識﹐不能創建一些特殊效果 所以我該如何學習HTML? 有什麼比較快的方法嗎?       答案是沒有的﹐學習程式語言就像是學習廚藝一樣﹐只有透過不停的嘗試﹑嘗試和嘗試才能讓自己有所成長﹐並且慢慢強大。過程中你會一直遇上困難和失敗﹐但你在不斷解決困難的過程中能夠不斷發掘新的知識﹐從失敗中發才能不停的成長。無論你是學習那一種程式語言﹐都需要經歷困難和失敗才能讓自己更加強大﹐正所謂:不經一番寒徹骨,怎得梅花撲鼻香呢?對吧﹐我們能做的不是要找捷徑﹐而是透過不同的媒介和平台去不斷學習﹐那麼下面快樂學程式會為大家介紹一些很棒的程式教學網站﹐讓大家可以不斷提升自己。 1.w3schools.com- 語法練習的好地方這個網站是目前全球訪問量最大的網頁開發教程網站﹐網站裡有多種程式語言的教學﹐而且每種程式語言由淺到深的解說﹐從語言的介紹到不同的功能和方法都會分章節說明。所以無論你是從零開始學的白紙﹐還是已經在學習但遇到困難的新手都可以在這個網站上找到相關資訊﹐是個非常不錯的網站。那麼網址我們當然要雙手奉上﹐請慢用https://www.w3schools.com/ 2.CodeAcademy- 免費的教學網站這是全球其中一個最受歡迎的免費coding教學網站﹐已經有超過2400萬人透過這個網站學習到了如何去coding。這個網站是非常適合新手入門的同學去學習的﹐網站會一步一步仔細的教導而且還有實作﹐所以學習起來非常的快速! 3.StackOverflow- 實際案例與疑難雜症的解決處  這個網站比較適合一些已經有在嘗試動手實作的同學﹐當你在coding的時候遇上困難了﹐那麼你可以在這個可以解決超過80種程式語言問題的網站上找到答案﹐讓你的coding之路更加順暢。  如果你覺得爬網站麻煩又費時,不妨直接點擊快樂學程式的網頁前端課程,老師直接手把手帶你入門HTML !完整的基礎入門課程省下你獨自摸索花費的時間!   課程上架Udemy ! 準備一個輕鬆的週末,只要一天的時間,帶你建置靜態網頁。從實作中打開靜態網頁的大門,讓你的研究之路不是只有自己,有我們跟你一起努力!課程中你可以瞭解網站建置的世界觀與網站版型掌握HTML5的使用方式掌握 CSS3的使用方式使用Bootstrap處理前端UI框架現在開始上課!如果你的入門還在單打獨鬥,歡迎來到快樂學程式找到志同道合的夥伴,你的自學之路不孤單。快樂學程式

4 years ago

HTML語法整理! 3分鐘快速弄懂常用語法!

什麼是HTML?         HTML全名是HyperText Markup Language,是一種描述超文件的註記語言SGML(Standard Generalized Markup Language)所制訂出的一種網頁語言,是編寫網頁的基本語言,基本上現行的瀏覽器都可以讀取HTML,使用HTML可以編輯設計出網頁,也可以在網頁中加入所有HTML語言可支援的方式,例如表格、表單、圖片、文字、連結、程式等等。 HTML介紹與基本語法整理   不管你是小時候從撰寫無名小站為了要修改你的樣式,而開始瞭解HTML和CSS為何物,或是長大因為介面設計或前端工程開始踏入網頁的世界。HTML和CSS對於網站的重要性經過多年依然歷久不衰。在本篇會對HTML進行基礎的介紹並幫你整理出基本語法提供你在寫網頁時的快速參考!   編寫基本的HTML: 先讓大家看一下一個基本的HTML文件格式為: <HTML> <HEAD> <TITLE>網頁主題</TITLE> <Meta> </HEAD> <BODY>…

4 years ago

PHP是什麼?3分鐘PHP基本介紹!

PHP是什麼?3分鐘PHP基本介紹!       大家安安﹐快樂學程式這一次要跟大家分享PHP這種程式語言。希望幫助對於PHP有興趣的新手們可以透過我們的文章對這種語言有初步認識。一如以往﹐我們會分享以下幾項有關PHP的知識。 PHP是什麼?       PHP語言的全名是(PHP: Hypertext Preprocessor),和ASP、JSP等都是動態網頁開發語言,不過,PHP擁有跨平台的能力,無論是在Linux(最適合)、Unix、 Windows都可以執行運作,不像微軟 的ASP只能在Windows平台上執行,而且PHP是免費的,並可結合多種資料庫伺服器,如:MySQL、PostgreSQL、dBase、mSQL、Informix、ODBC、Oracle等。      PHP語言是伺服器端(Server)執行的網頁,不像一般HTML網頁,只要單機下開啟檔案就可以檢視網頁,PHP必須先在伺服器端執行完後,再將結果傳至使用者端(Client)的瀏覽器中檢視結果,所以必須使用網站伺 服器,且伺服器要支援PHP。 如何學好PHP?       要學好PHP,要有目的,要有一個想寫的東西,寫個學校網站,寫個校友系統,寫個簡單的新聞區或相簿...等,都可以,盡可能的和工作和生活結合,利用程式來簡化繁瑣的人工步驟,或者提昇工作效率,有目標,才會有動力,才會有想法。      學PHP不需要背,背不完的,只要懂就好了。像函數就不用背,常用的打久了你就背起來了,不常用的,等到要用時,知道去哪裡找就好。換言之,函數懂越多,功力越高強。      程式碼可以複製貼上,但一定要知道為什麼要這麼寫,不要傻傻的照著打,可以的話,自己打一遍最好,最上乘就是可以說出每一行程式碼的作用和前因後果。或者,故意打錯,看看會怎樣。錯誤訊息看久了,功力也就提昇了。 PHP程式碼執行方式 透過 Web Server 方式:例如利用 Apache…

4 years ago

PHP是什麼?基本介紹與語法整理

Sildenafil citrate oral jelly Combiné avec les données de départs 2, on leur a demandé de type 5 de tadalafil…

4 years ago