fbpx
適合本篇閱讀的人:
  •   剛接觸Python
  •   剛入門爬蟲

 

範例流程:

爬取python Taiwan FB社團,在社團內部自動垂直瀏覽頁面爬取貼文時間,併計算貼文數量。

第一部分:介紹各種python內建套件模塊

 

1. Selenium:程序可以直接驅動瀏覽器進行各種網站操作。      

2. Webdriver:真實的模擬人對於瀏覽器的操作行為。 

3. BeautifulSoup:最主要的功能是從網頁抓取數據。 

4. numpy:多維數據集數學函式庫。

5.time:獲取當前的時間,操作時間和日期,從串行讀取時間及格式化時間為字符串。 

6. Csv:在Python中可以讀取或產生csv的檔案。

 

 

第二部分:啟動瀏覽器,進入指定的網址頁面

 

每次當硒啟動chrome瀏覽器的時候,chrome流覽器很乾淨,沒有外掛程式,沒有收藏,沒有歷史記錄,

這是因為硒在啟動chrome時為了保證快速的運行效率,啟動了一個裸流覽器,這就是為什麼需要配置參數的原因。

selenium啟動配置參數接收是ChromeOptions類,創建方式如下:

 

 

第三部分:爬取網頁資料

 

l 爬取社團中所有所有貼文  

l爬取至2020/2/1的貼文時間,並算出社團總貼文數 

 

小結:

這樣就完成了一個FB社團的網頁爬取!

最後,喜歡我的文章幫我拍拍手,給予我鼓勵我會很開心的👏👏👏

celia

celia

人生苦短,我用Python !

Leave a Reply