鞋技中心人工智慧課程
洪朝貴 (資訊人權貴)
朝陽科技大學 資訊管理系
軟體自由協會 (SLAT)
[預備事項]
- 自製開機隨身碟 或自行在筆電上安裝 linuxmint/*ubuntu/debian 等任何一個版本的 Linux
- 申請 TGOS 帳號 (可能要好幾天才會核准)
- 註冊 OpenStreetMap 帳號
[7/13 上午] 資料探勘
- Data Mining / Knowledge Discovery in Databases (KDD): 從大量資料當中, 運用各種技術, 挖掘出有用資訊與知識甚至預測未來, 這樣的過程。
- 應用範例: 精準行銷、 詐騙辨識、 信用評估、 客戶流失分析、 有價證券分析
- 可能採用的技術: 傳統統計學、 資料庫查詢、 機器學習
- 步驟: 選取資料集、 前置處理、 資料減量與轉換、 套用演算法、 解釋與評估
- 談論資料表格的基本名詞: 表格/table/relation/class、 列/row/record/tuple、 欄/column/field/attribute、 數值資料/numerical、 文字資料/categorical
- 常見演算法類型: classification、 clustering、 correlation (例如 regression)、 association、 ...
- 更多術語
- 更多入門參考資料: 趨勢科技、 MIT lecture notes (Nitin Patel)
[7/13 下午] 資料視覺化
- 導覽: Hans Rosling 演講 長版/短版、 d3.js、 工具大賞
- 誤用資料視覺化的範例 : MacWorld's iPhone Pie Chart, Cumulative iPhone sales chart
- 常見圖表類型
- Visual Cheatsheet
- 顏色: HSL and HSV ; 調色盤類型 ; 選色工具 I Want Hue + Viz Palette ; 色盲無障礙: redundant encoding rainbow (jet) color scheme can be misleading
- 範例資料檔 「電力能源來源分類」 備料: 三字元 iso 國碼、 整理與驗證、 unpivoting/melting
- rawgraphs 之 line chart 與 顯示階層式 (hierarchical) 資料
- scatplot
- 挖掘資料群聚性的高維資料降維工具: t-SNE 與 umap
[7/14 上午] 網路爬蟲
-
一個短範例: 查詢個股除權息相關資訊
wget https://stock.wespai.com/rate112 -O - | grep -v '<!--.*-->' > wespai.html
echo '代號,名稱,配息,除息日,配股,除權日,發息日' > dpann.csv
python3 html2csv.py wespai.html | cut -d, -f 1-6,10 | perl -pe 's/"([\d.]+)"/$1/g' >> dpann.csv - 正規表示式
- 台中市環保地圖 (可顯示輔助資訊的群聚地圖)
- 運輸資料流通服務 tdx 範例 ; 補充: jq 與 zq
- 補充: 複利成長的電腦學習策略 / 長線投資的電腦學習策略
- 參考資料: 網頁爬蟲終極武器: puppeteer、 selenium 爬蟲、 linespector
[其他連結]