搜括網頁實戰: 用 QueryPath 半手工備份噗浪

你會固定去某些部落格或新聞網站查看或下載文章/資料嗎? 希望把這些動作自動化 (省略手動點連結的動作) 批次化嗎? 或是你想寫一些小程式定期觀察某些網頁的某些欄位? 也許你需要學習 Document Object Model 跟 XPath? 總之, 如果你需要寫小程式抓取並分析網頁 (web scraping), 那就讓 firebug 跟 QueryPath (php 版的 jQuery) 來幫你吧。

我們將以「備份噗浪」為例, 說明 QueryPath 這個原生於 Drupal 的函式庫如何拿來獨立使用、實現網頁搜括 (web scraping 或 web harvesting)。