fbpx
Python初學程式技術問題

Python 爬蟲解析:以爬取臉書社團為案例,使用 selenium 來進行網頁模擬爬蟲

適合本篇閱讀的人:   剛接觸Python   剛入門爬蟲   範例流程: 爬取python Taiwan FB社團,在社團內部自動垂直瀏覽頁面。爬取貼文時間,併計算貼文數量。 https://gist.github.com/dreamline2/6df1c4ff4e00e36404669b1437b45820 第一部分:介紹各種python內建套件模塊   1. Selenium:程序可以直接驅動瀏覽器進行各種網站操作。       2. Webdriver:真實的模擬人對於瀏覽器的操作行為。  3. BeautifulSoup:最主要的功能是從網頁抓取數據。  4. numpy:多維數據集數學函式庫。 5.time:獲取當前的時間,操作時間和日期,從串行讀取時間及格式化時間為字符串。 …
celia
February 18, 2020
初心者也能上手的版本控制基本指南工程思維

初學者也能上手版控的基本指南

本篇大綱: 何謂版本控制? 版本控制的類型和用途 Git介紹和使用者 Git vs Github vs Gitlab 何謂版本控制? 版本控制系統是一種軟件工程的開發技巧,可以通過這個系統讓每位成員的軟件版本可以方便同步和維護管理 (不然要用電子郵件或其他工具傳送和管理十分麻煩,尤其是程序又常常會有不同版本修改的問題!) 在沒有版本控制系統時,我們常會在編輯檔案前複製一個備份,或者在更新檔案後產生許多重複檔案,非常不便且難以維護。 因此,使用版本控制系統的需求就這樣產生啦! 版本系統類型和用途 舉例來說:A&B共同開發專案,有兩種版本控制方法: 1.中央式: 伺服器維護一個最新版本的專案,當要修改專案的時候,就從伺服器上下載專案,改完再上傳。 為了保證伺服器上永遠是最新的,就需要一直保持網路暢通;一旦中央伺服器壞了,一切都將結束。 CVS是最初的版本控制系統,SVN是當前最流行的集中式版本控制系統。上述兩個都是開源,免費的。 2.分散式: 一開始,A本地電腦有一個倉庫,用於存儲“ A對專案的修改”(B也一樣)。 需要更新整個專案的時候,A,B之間就互相點擊“修改”,然後本地倉庫就保存了“所有人該專案的修改”。 因此,每個人都有最新版的專案,斷網斷電也不用擔心。…
celia
February 11, 2020