fbpx
Python初學程式技術問題

Python 爬蟲解析:以爬取臉書社團為案例,使用 selenium 來進行網頁模擬爬蟲

適合本篇閱讀的人:   剛接觸Python   剛入門爬蟲   範例流程: 爬取python Taiwan FB社團,在社團內部自動垂直瀏覽頁面。爬取貼文時間,併計算貼文數量。 https://gist.github.com/dreamline2/6df1c4ff4e00e36404669b1437b45820 第一部分:介紹各種python內建套件模塊   1. Selenium:程序可以直接驅動瀏覽器進行各種網站操作。       2. Webdriver:真實的模擬人對於瀏覽器的操作行為。  3. BeautifulSoup:最主要的功能是從網頁抓取數據。  4. numpy:多維數據集數學函式庫。 5.time:獲取當前的時間,操作時間和日期,從串行讀取時間及格式化時間為字符串。 …
celia
February 18, 2020
技術問題

不停機 migration 避免鎖表的幾種操作

基本上在商業應用中,我們會盡可能的避免停機操作,試想光 CloudFlare 因為 bad deploy 當機幾分鐘至一個小時就會引發一連串的災難,在商場上每分每秒都是錢,為了避免不必要的損失,軟體工程常常會面臨到所謂的 zero downtime 操作。 但像資料庫的結構設計不可能一開始就符合大型架構,所以這過程通常都是不停的升級遷移,才有了符合現在設計的樣貌,所以不可避免的停機還是會發生的,通常幾個原因 應用程式的 code 不能同時兼容 migration 前 / 後的資料庫 因為資料量大,在跑 migration 時造成的長時間鎖表 (more…)
學程式助教
November 25, 2019