如何高效率地使用 Python 走訪資料夾中的檔案
最近一個工作需求是要爬近 TB 等級的資料,資料的儲存格式是散落在各資料夾中的 XML 檔。然而實際爬蟲發現 IO 的瓶頸反而不是處理 XML 檔及萃取資料並寫入資料庫中,瓶頸是出現在走訪資料夾所花費的時間。原本想改用 Multi Thread / Process 的方式處理,無奈自己也不太熟悉。最後則是改採 glob 模組,讓搜尋資料夾中 XML 檔的效率增加,整體的作業時間就有相當明顯的改善!
最近一個工作需求是要爬近 TB 等級的資料,資料的儲存格式是散落在各資料夾中的 XML 檔。然而實際爬蟲發現 IO 的瓶頸反而不是處理 XML 檔及萃取資料並寫入資料庫中,瓶頸是出現在走訪資料夾所花費的時間。原本想改用 Multi Thread / Process 的方式處理,無奈自己也不太熟悉。最後則是改採 glob 模組,讓搜尋資料夾中 XML 檔的效率增加,整體的作業時間就有相當明顯的改善!
習慣使用 Visual Studio Code 的 keyboard binding,但在開發 ASP.NET MVC 時,VisualStudio 提供的偵錯、定義檢視、EntityFramework 等功能,仍讓使用 Visual Studio 不可避免。而只要安裝適合的套件與調整設定,也能夠讓 VisualStudio 的開發更為流暢。
使用 ASP.NET MVC 開發時,最常見的痛點就是在設計表單 (forms) 需要來回切換頁面查詢 Bootstrap 的架構格式,雖然有 Snippets 可以使用,但仍是有許多地方需要進行客製,同時也要考慮到 ASP.NET MVC 提供了許多的 Helper,不善加利用十分可惜,於是綜合兩者的優勢的開發方式以及常用的 Code Helper 及 Snippets 整理於本筆記,供日後檢索。
在列印 Excel 表格最常見的問題就是欄位太多,造成無法在同一頁呈現,這個時候除了針對每格欄位分別設定欄位寬度,最方便的方式就是先預覽列印結果,並且縮放版面的方式來做調整。
說明如何啟用 IIS 預先載入的功能,讓 IIS 重啟或者集區回收之後將服務自動起來,而非使用者連線後才啟動服務,避免使用者啟動服務過程感到緩慢體驗不佳。
微軟調整了課程與認證的產品線,聚焦在 Role-Based 類型的認證 ,初級的認證則保留了 MTA。但過往的認證課程仍有許多參考的價值,尤其是課程的教材、課程的大綱與核心目標,故特別筆記相關清單。