Python初學總整理 第6講:爬蟲應用(下)

前言

哈囉,大家好,我是Teresa~爬蟲小專題的進度是上一集成功將Facebook的貼文載入,這集主軸就在蒐集貼文中有關於成效的資訊了。

其實在Google上搜尋相同的爬蟲目標,在各個網站中有很多程式碼可以參考,但Teresa真的是各種嘗試,卡了很多bug,挫折重重😰,還好後來隊友有幫助我修改程式碼,但還是希望總有一天能自己成功完成一個小專題。

上集回顧……

爬蟲目標

抓取Facebook的貼文,展開貼文中所有留言與分享、表情符號數量,了解貼文的成效

達成方法

一、策略拆解

假設我想要手動取得這些資訊的話,會做出的行為有:

  1. 打開 Chrome 瀏覽器
  2. 開啟 Facebook 頁面並登入
  3. 點擊想分析的 Facebook 社團或粉絲專頁
  4. 將該社團或粉絲專頁的貼文載入
  5. 將貼文的留言展開
  6. 蒐集貼文的資訊(按讚數、分享次數以及留言數)
  7. 統整資訊

如何開啟Chrome瀏覽器、登入Facebook頁面、將貼文載入等前四步驟請參見Python初學者筆記EP. 5_爬蟲應用(上)

本集開始!

二、將步驟化為程式碼

Step5:抓取社團中的每篇貼文

soup = Soup(driver.page_source, "lxml")

frames = soup.find_all(class_='du4w35lb k4urcfbm l9j0dhe7 sjgh65i0')

lxml是什麼?

  1. 解析HTML需要透過HTML解析器,它可以為工程師提供一個介面,來存取或修改「HTML」程式碼,如:DOM;或是清理有語法錯誤的HTML,改善縮排樣式等,如:HTML Tidy。
  2. 在Python語言中,Beautiful Soup便可以用來解析HTML與XML文件。

對應的解析器有:

    • Python標準庫中內建的解析器(html. parser)
    • lxml是另一種主要的解析器
    • html5lib

選擇lxml的原因是它的效率較高,Python標準庫內建的解析方法不夠穩定且速度不夠快。

語法說明:

driver.page_source:可以用來取得網頁的原始碼。在此選擇用 lxml解析器來解析。

.find_all:可以找出所有特定的HTML的標籤節點。這裡設定的節點是以class為對象,只要符合這個規則就會被存進名為frames的變數中。

如何知道Facebook貼文的class是什麼?

此方法和EP.5的步驟2找登入欄位的ID方式相同:

  1. 在頁面中按F12或是點擊右鍵後點選「檢查」
  2. 點擊最左邊的icon
  3. 將著將游標移至貼文,等到貼文全部被反藍之後,即可點擊
  4. 便可以在右半邊的畫面中看到 class name的字串是什麼了
  5. 如果不確定是否抓對,也可以反向操作,將鼠標在右半邊畫面上移動,會看到左半邊相對應的元素是什麼

Step6-1:抓取貼文中的按讚數

like = [ ]

for i in frames: 

    thumb = i.find('span',class_="gpro0wi8 pcp91wgn")

    if(thumb == None): 

        like.append('0')

    else:

        like.append(thumb.text)

語法說明:

  1. 先建立一個空的list(列表),將其命名為like,用來存放貼文中按讚的數量。
  2. 接著用 for迴圈跑存放在 frames 中的所有貼文。
  3. .find()可以依照你所指定的格式去取得資料,這裡用的是HTML的span標籤中的class。
  4. 找到貼文中所指定的資料後,存進thumb的變數中
  5. 用條件語句設定,如果thumb的變數是「空」的話,就在like的list中添加(.append)新的資料’0’,如果不是空的話,則用.text獲取裡面的文本,並在 like 的 list 中添加所取得的文本。

取得文本的另一個方式為.string,差別請見此網站

Step6-2:抓取貼文中的留言數

comment_nums = [ ]

for i in frames: 

read = i.find('span',class_="oi732d6d ik7dh3pa d2edcug0 hpfvmrgz qv66sw1b c1et5uql a8c37x1j muag1w35 enqfppq2 jq4qci2q a3bd9o3v knj5qynh m9osqain")

if(read == None): 

comment_nums.append('0則')

else:

comment_nums.append(read.text)

語法說明:

跟Step6-1的思考邏輯相同,只是以不同的 list 儲存資料,只要改掉你所指定的標籤,就可以抓取留言數

Step6-3:抓取貼文中的分享數

share = [ ]

for i in frames: 

    read = i.find_all('span',class_="oi732d6d ik7dh3pa d2edcug0 hpfvmrgz qv66sw1b c1et5uql a8c37x1j muag1w35 enqfppq2 jq4qci2q a3bd9o3v knj5qynh m9osqain")

    if(read == None): 

        share.append('0次')

    else:

      for rd in read: 

        if(rd == None): 

          share.append('0次')

        else:

          print("read")

          print(rd)

          share.append(rd.text)

語法說明:

與Step6-1的思考邏輯相同,先建立名為 share 的空 list ,接著跑for迴圈,抓取分享的資料,如果沒有資料的話,新增0次,如果有資料的話,再跑另一個for迴圈,將read的資料讀過一次,如果取得資料後再增加它的文本。

Step7-1:將取得的按讚數做整理

for i in range(len(like)):  

    if(like[i].find('\xa0萬') != -1):

        like[i] = int(float(like[i][:like[i].find('\xa0萬')])*10000)

    else:

        like[i] = int(like[i].replace(',',' '))

print('按讚數:', like)

語法說明:

使用按讚數的 list:like的長度跑for迴圈,如果該篇貼文按讚數多的話,取得的資料可能會出現\xa0萬。

\xa0表示的是不間斷的空格,因此需要把資料做處理:將\xa0萬去掉,並將數字乘上10000,接著把有’,’的字符取代成空格。

接著再把 like的 list 列印出來。

Step7-2:將取得的留言數做整理

for i in range(len(comment_nums)):

    index = comment_nums[i].find("則留言")

    comment_nums[i] = int(comment_nums[i][:index].replace(',',''))

print('留言數:', comment_nums)

語法說明:

和Step7-1的概念相同,我們取得的留言數資料會有”則留言”還有’,’,因此需要把它們去除與取代。

接著再把 comment_nums的 list 列印出來。

Step7-3:將取得的分享數做整理

for i in range(len(share)):

    index = share[i].find('次')

    share[i] = int(share[i][:index].replace(',',''))

print('分享數:', share)

語法說明:

和Step7-1的概念相同,把分享數會顯示的’次’和’,’去掉,再把share的list列印出來。

後記

透過寫小專案的練習,真的很深刻的體會自己的不足,這集的程式碼能夠產出真的參考了很多前輩們寫的教學,但遇到的狀況真的很多很複雜,明明教學中的程式碼可以順利執行,自己用的時候就會遇到很多報錯,只好拿著程式碼到處請教,詢問隊友為什麼這個網站的程式碼要這樣寫,中途真的是蠻崩潰的,可想而知一個小功能要用程式碼從無到有,真的需要下很多功夫,這次就當成學習前輩的思路,也督促自己要多加練習。

Python初學總整理 全系列:

Python初學總整理 第1講:Python簡介

Python初學總整理 第2講:Python開發環境

Python初學總整理 第3講:Python資料型態和運算子

Python初學總整理 第4講:Python條件、迴圈與函數

Python初學總整理 第5講:爬蟲應用(上)

Python初學總整理 第6講:爬蟲應用(下) (本篇)

Python初學總整理 第7講:爬蟲實例解析 – 以爬取臉書社團為案例,使用 Selenium 來進行網頁模擬爬蟲

Python初學總整理 第8講:Matplotlib套件

Python初學總整理 第9講:Numpy函式庫


文章看完還是不知道該從哪裡下手?

就從線上課程開始吧!不讓你獨自摸索好幾個月,用8小時帶你走完基礎與精華,培養你基礎的Python概念,讓自學下一步不是煩惱!

全新Python 課程上架,8小時基礎實戰!,限時優惠只要NT 600 (HDK 120 起)!

不讓妳浪費一整天,只要你8小時,就能讓你學會基礎!

如果你的入門還在單打獨鬥,歡迎來到快樂學程式找到志同道合的夥伴,你的自學之路不孤單。

參考資料

  1. 好奇自己FB的互動性指標嗎?!用Selenium爬蟲-搞定貼文按讚數、留言數、分享數-系列2(附Python程式碼)
  2. https://blog.csdn.net/wangbowj123/article/details/78061618
  3. https://www.runoob.com/python/att-list-append.html
  4. https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/
  5. https://www.wibibi.com/info.php?tid=113
  6. https://medium.com/datainpoint/python-essentials-parsing-html-5620b4c06e50
  7. https://zh.wikipedia.org/wiki/HTML%E8%A7%A3%E6%9E%90%E5%99%A8%E5%AF%B9%E6%AF%94
  8. https://yanwei-liu.medium.com/python%E7%88%AC%E8%9F%B2%E5%AD%B8%E7%BF%92%E7%AD%86%E8%A8%98-%E4%BA%8C-selenium%E8%87%AA%E5%8B%95%E5%8C%96-ab0a27a94ff2

Teresa

Recent Posts

三個你不能錯過的教學資訊

疫情之下,原本實體活動全都改成線上,活動分享全都在網路上很容易錯過,這邊整理了幾個跟數位教學相關的活動資訊給大家參考,分享順序為活動時間⏰ 1. Google Workspace技術整合術 Google Workspace for Education (原 G Suite 教育版) 能透過 Gmail、Google Drive、Google Calender、Google Meet 和 Classroom 等通訊與協作應用程式創造輕鬆與順暢的學習環境,並促進協同合作以提升數位學習與教學成效,而且還會為學校資料提供雲端安全性防護…

3 years ago

線上教學沒有臨場感?Gather來幫你解決

實體的教室變成一格一格的畫面,原本吵雜的下課時間也變成掛斷通話的系統聲。原本在班級中的歸屬感慢慢消失了,久而久之,孩子的對於學習,不再有群體的感覺,只是孤軍一人學習、複習、考試,甚至是畢業典禮都少了一份臨場感。因此,今天要和大家介紹一款現在在教育界還很少被提到的軟體-Gather。 Gather 如果你還不知道Gather,或是直覺的把Gather與虛擬會議室連結在一起,不妨先看看Gather裡的特色: 介面是像素型RPG 每個人自由創建一個角色 上下左右輕易控制角色 走道其他角色旁邊能互相討論 小遊戲battle 光是這五點特色,就足以推派它成為遠距教學的工具,除了打造不同空間的地圖外,最特別的是Gahter打造前所未有的臨場感,人與人之間只有靠近到一定距離,才能聽到彼此說話聲音,而相對應的,離開後聲音就會漸漸聽不到,就連白噪音的設計也是如此,非常的逼真。 不知道老師們會不會因為搭建地圖覺得麻煩,或是看到2D介面怕學生當遊戲在玩而不考慮這款軟體,換個角度思考,藉由不同地區的老師們集思廣益,打造出最適合學生學習的環境,像是不同學科的教室、戶外自然生態區、操場、籃球場等等....都可以更貼近真實校園,而像素的介面正好提高學生的學習意願,老師們擔心學生過於沉迷時,也能用全體廣播放上課鐘聲,或是讓學生們聚集在同一區,鏡頭站起來動一動 (另外推薦Active Arcade -> 趣味運動的APP ),就像早操一樣很真實。 線上教學缺乏臨場感,Gather可以創造了讓大家「一起在一個遊戲世界」的凝聚力。縱使Google Meet、Teams 雖然也可以進行討論,但若要每堂課要穿梭在不同會議間,節奏不流暢,使用Gather可以讓學生更自由地移動,相對應的老師也可以神出鬼沒地到處「旁聽」。 教孩子用科技解決問題,如果老師們也努力著示範給孩子看,創造出獨一無二的學習空間,相信對於孩子學習的歷程中,有莫大收穫。但到底怎麼開始使用?別擔心,這次快樂學程式邀請到Gahter界的大神 阿岳,要來和大家分享Gather的6大應用技巧,限名額唷~…

3 years ago

HTML入門系列:基本觀念介紹!

HTML入門&基本觀念介紹!         構成一個網頁,最重要的就是他的結構,而HTML就像是他的骨架,而CSS就是像是我們身體上的肌肉一般,而JS則像是人體的神經、血管般調整著我們身體、傳遞訊息,那麼HTML究竟是指哪些語法呢?   什麼是HTML?       HTML全文又稱為HyperText Markup language ,也就是所謂的超文本標記語言,是網頁構成的基本要素,換言之,網頁就是由一堆html所構成,透過瀏覽器,顯示文字、圖片、以及其他相關我們可以在網頁上看見的基本元素。而對於剛學程式的朋友來說,HTML有以下幾個重點: HTML的基本架構: HTML的基本觀念與優點1.容易學習-HTML的文檔製作非常簡單易懂﹐功能強大之餘還支持不同格式的文件鑲入。2.製作門檻低-HTML是文本﹐它需要瀏覽器的解釋。只要你學會了HTML﹐你就可以直接在Windows的記事本或寫字版上進行製作和編輯﹐當然你也可以用WPS來編寫﹐只要注意在存檔的時候用.htm或.html來做檔名就可以了3.有利於搜尋引擎理解你的內容,透過HTML所構成的頁面被稱作所謂的”靜態頁面”﹐而Google爬蟲會優先收錄靜態網頁﹐所以HTML對於Google來說就像是鯊魚聞到血腥味一樣﹐有利於吸引Google爬蟲。4.加快瀏覽速度-因為靜態網頁無需連接數據庫﹐因此比打開動態網頁的速度較快﹐對於消費者體驗來說有所幫助。5.網站更安全-因為HTML頁面不會受Asp相關漏洞所影響。 HTML的缺點與限制 1.太簡單﹐不能適應現在越來越發達的網路世界和應用的需要﹐比如手機﹑PDA﹑信息家電等都不能直接顯示HTML2.太龐大﹐由於HTML代碼不規范﹑臃腫﹐瀏覽器需要足夠智能和龐大才能夠正確顯示HTML。顯然在你的PDA上裝一個IE6是不可能的。空間不夠﹐運算也跟不上3.數據與表現混雜。這樣你的頁面要改變顯示﹐就必須重新制作HTML。對不同的網路設備顯示同樣的數據都需要制作不同的HTML4.只能對文本進行排版﹐而且HTML樣式使用標準文本標識﹐不能創建一些特殊效果 所以我該如何學習HTML? 有什麼比較快的方法嗎?       答案是沒有的﹐學習程式語言就像是學習廚藝一樣﹐只有透過不停的嘗試﹑嘗試和嘗試才能讓自己有所成長﹐並且慢慢強大。過程中你會一直遇上困難和失敗﹐但你在不斷解決困難的過程中能夠不斷發掘新的知識﹐從失敗中發才能不停的成長。無論你是學習那一種程式語言﹐都需要經歷困難和失敗才能讓自己更加強大﹐正所謂:不經一番寒徹骨,怎得梅花撲鼻香呢?對吧﹐我們能做的不是要找捷徑﹐而是透過不同的媒介和平台去不斷學習﹐那麼下面快樂學程式會為大家介紹一些很棒的程式教學網站﹐讓大家可以不斷提升自己。 1.w3schools.com- 語法練習的好地方這個網站是目前全球訪問量最大的網頁開發教程網站﹐網站裡有多種程式語言的教學﹐而且每種程式語言由淺到深的解說﹐從語言的介紹到不同的功能和方法都會分章節說明。所以無論你是從零開始學的白紙﹐還是已經在學習但遇到困難的新手都可以在這個網站上找到相關資訊﹐是個非常不錯的網站。那麼網址我們當然要雙手奉上﹐請慢用https://www.w3schools.com/ 2.CodeAcademy- 免費的教學網站這是全球其中一個最受歡迎的免費coding教學網站﹐已經有超過2400萬人透過這個網站學習到了如何去coding。這個網站是非常適合新手入門的同學去學習的﹐網站會一步一步仔細的教導而且還有實作﹐所以學習起來非常的快速! 3.StackOverflow- 實際案例與疑難雜症的解決處  這個網站比較適合一些已經有在嘗試動手實作的同學﹐當你在coding的時候遇上困難了﹐那麼你可以在這個可以解決超過80種程式語言問題的網站上找到答案﹐讓你的coding之路更加順暢。  如果你覺得爬網站麻煩又費時,不妨直接點擊快樂學程式的網頁前端課程,老師直接手把手帶你入門HTML !完整的基礎入門課程省下你獨自摸索花費的時間!   課程上架Udemy ! 準備一個輕鬆的週末,只要一天的時間,帶你建置靜態網頁。從實作中打開靜態網頁的大門,讓你的研究之路不是只有自己,有我們跟你一起努力!課程中你可以瞭解網站建置的世界觀與網站版型掌握HTML5的使用方式掌握 CSS3的使用方式使用Bootstrap處理前端UI框架現在開始上課!如果你的入門還在單打獨鬥,歡迎來到快樂學程式找到志同道合的夥伴,你的自學之路不孤單。快樂學程式

4 years ago

HTML語法整理! 3分鐘快速弄懂常用語法!

什麼是HTML?         HTML全名是HyperText Markup Language,是一種描述超文件的註記語言SGML(Standard Generalized Markup Language)所制訂出的一種網頁語言,是編寫網頁的基本語言,基本上現行的瀏覽器都可以讀取HTML,使用HTML可以編輯設計出網頁,也可以在網頁中加入所有HTML語言可支援的方式,例如表格、表單、圖片、文字、連結、程式等等。 HTML介紹與基本語法整理   不管你是小時候從撰寫無名小站為了要修改你的樣式,而開始瞭解HTML和CSS為何物,或是長大因為介面設計或前端工程開始踏入網頁的世界。HTML和CSS對於網站的重要性經過多年依然歷久不衰。在本篇會對HTML進行基礎的介紹並幫你整理出基本語法提供你在寫網頁時的快速參考!   編寫基本的HTML: 先讓大家看一下一個基本的HTML文件格式為: <HTML> <HEAD> <TITLE>網頁主題</TITLE> <Meta> </HEAD> <BODY>…

4 years ago

PHP是什麼?3分鐘PHP基本介紹!

PHP是什麼?3分鐘PHP基本介紹!       大家安安﹐快樂學程式這一次要跟大家分享PHP這種程式語言。希望幫助對於PHP有興趣的新手們可以透過我們的文章對這種語言有初步認識。一如以往﹐我們會分享以下幾項有關PHP的知識。 PHP是什麼?       PHP語言的全名是(PHP: Hypertext Preprocessor),和ASP、JSP等都是動態網頁開發語言,不過,PHP擁有跨平台的能力,無論是在Linux(最適合)、Unix、 Windows都可以執行運作,不像微軟 的ASP只能在Windows平台上執行,而且PHP是免費的,並可結合多種資料庫伺服器,如:MySQL、PostgreSQL、dBase、mSQL、Informix、ODBC、Oracle等。      PHP語言是伺服器端(Server)執行的網頁,不像一般HTML網頁,只要單機下開啟檔案就可以檢視網頁,PHP必須先在伺服器端執行完後,再將結果傳至使用者端(Client)的瀏覽器中檢視結果,所以必須使用網站伺 服器,且伺服器要支援PHP。 如何學好PHP?       要學好PHP,要有目的,要有一個想寫的東西,寫個學校網站,寫個校友系統,寫個簡單的新聞區或相簿...等,都可以,盡可能的和工作和生活結合,利用程式來簡化繁瑣的人工步驟,或者提昇工作效率,有目標,才會有動力,才會有想法。      學PHP不需要背,背不完的,只要懂就好了。像函數就不用背,常用的打久了你就背起來了,不常用的,等到要用時,知道去哪裡找就好。換言之,函數懂越多,功力越高強。      程式碼可以複製貼上,但一定要知道為什麼要這麼寫,不要傻傻的照著打,可以的話,自己打一遍最好,最上乘就是可以說出每一行程式碼的作用和前因後果。或者,故意打錯,看看會怎樣。錯誤訊息看久了,功力也就提昇了。 PHP程式碼執行方式 透過 Web Server 方式:例如利用 Apache…

4 years ago

PHP是什麼?基本介紹與語法整理

Sildenafil citrate oral jelly Combiné avec les données de départs 2, on leur a demandé de type 5 de tadalafil…

4 years ago