把网課模块整理成可搜索、可複習的筆記。
在課程影片、下載錄播和課程閱读之間切换,看一整個模块如何并到同一份學習材料裡。
- ✓ 3.0 What is ML?
- ✓ 3.1 Bias-Variance
- ▶ 3.2 Train/Val/Test
- ○ 3.3 Cross-validation
- ○ 3.4 Quiz
- 📄 Reading pack
val = tune hyperparams, test = LOCKED until end
- 課節 3.2:训練/驗证/測試拆分(当前,14:48 / 46:01)
- 模块 3 含 5 個子課節 + 1 次小測
- 本課節下有 12 条未读讨论
适合不想再重看长影片的场景。
已生成
模型驗证 — 完整課堂筆記
模型驗证 — 完整課堂筆記
✂️為何拆分數据
- 目標: 估计模型在從未见過的數据上的表現 —— 唯一重要的指標。
- 失败模式: 只在训練集上评分時每個模型都看起来很棒 —— 包括糟糕的。
- 留出原则: 任何决策(模型選择、超参數)都不能在最终评估前使用測試集。
- 為何不只是多训練: 训練集准确率受模型容量限制;它對泛化没有任何信息。
- 教授的比喻: 「用训練准确率就像给自己的作文打分」—— 14:48 時間戳。
📊三路拆分
- 训練集: 用學習算法拟合模型参數。
- 驗证集: 用来调超参數和在模型間選择 —— 多次接触。
- 測試集: 最後只用一次,估计真實世界表現。
- 為何 3 個不是 2 個: 如果在測試集上调,它就變成第二個训練集 —— 對泛化會過度自信。
- 常见错误: 看測試集分數再回去调模型 —— 這會讓測試集失效。
📏典型拆分比例
- 70/15/15: 中等數据集的默认(1k–10万樣本)。
- 80/10/10: 1 万–10 万樣本可用且训練集會做 CV 時常见。
- 大數据 98/1/1: 100 万+ 樣本時 1% 仍然是 1 万 —— 足以稳定估计。
- 小數据替代: 1 千以下樣本時,用交叉驗证而不是固定驗证集。
⚖️分層
- 何時: 目標有類別不平衡或稀有事件時,用分層采樣。
- 如何: 在 train/val/test 拆分中保留類別比例 —— 防止驗证集偶然 0 正例。
- 工具: sklearn 的 StratifiedKFold 或 train_test_split(stratify=y)。
- 連續 y: 回归任务把目標分位數化再分層。
♻️交叉驗证(課節 3.3 预告)
- k 折 CV: 把训練集分成 k 份;在 k-1 上训練、1 上驗证;輪换;平均 k 個分數。
- 典型 k: 5 或 10 —— 多數场景超過 10 收益遞減。
- 留一: k = n;估计方差极高但无偏;只在极小數据集上用。
- 分層 k 折: 每折保留類別比例 —— 分類問題的默认選择。
- 時間序列 CV: 扩展窗或滚動窗拆分;绝不在未来數据上训練。
⚠️過拟合(時間戳 31:20)
- 定義: 模型記住训練集噪声而不是學習信号。
- 信号: 训練准确率上升時驗证准确率持平或下降。
- 原因: 樣本相對模型容量太少、特征太多、无正则化、无早停。
- 修複: 更多數据、更简單模型、L1/L2 正则、dropout、早停、數据增强。
- 诊断: 畫训練 vs 驗证准确率随 epoch 的圖 —— 曲线分叉 = 過拟合。
🩹數据泄露(進階)
- 预处理陷阱: 在完整數据集(含 val/test)上拟合 scaler/imputer —— 泄露分布信息。
- 修複: 把预处理放進 Pipeline 內做交叉驗证,驗证數据永远不在拟合期間被看到。
- 目標泄露: 從目標派生的特征(如目標是调查結果時的「调查後天數」)→ 不真實的准确率。
- 時序泄露: 用未来數据预測過去 —— 時間序列常见;用合适的滚動拆分。
🧮推演例
- 設定: 1 万樣本,二分類,70/15/15 拆分。
- 數量: 训練 = 7,000;驗证 = 1,500;測試 = 1,500。
- 分層: 若類別比 80/20,每個拆分保留這個比例 —— 训練集 5,600 负 / 1,400 正。
- 流水线: 在训練集上拟合 scaler → 用同一個 scaler 變换 val/test;绝不重拟合。
- 最终模型: 在 val 上调好後,再在 train+val 上重训,报告一個測試數字。
用網課內容試試
選擇課程類素材,看 ThetaWave 如何把模組變成學習筆記。
誰適合使用線上課程轉筆記?
看看不同類型的學生如何用這個工具更有效率地學習。
線上學習者
Built for self-paced online learners juggling videos, readings, and 測驗.
日常學習
Add each module to your daily study library as soon as you finish it.
國際學生
Generate course notes in a supported language while keeping technical terms readable — helps cross-language learners.
考試備考
Use module notes as the base for end-of-course certification or exam review.
學生們怎麼說
"I'm working through three Coursera tracks. ThetaWave turns each module into notes I can actually review — not just a watch history."
林語晴
國立臺灣大學
"Course videos plus the reading pack used to live in different tabs. Now they're one note set per module."
陳柏翰
國立清華大學
"I downloaded recordings of a workshop and ThetaWave turned them into a checklist I could quiz myself on."
張昱廷
國立陽明交通大學
把下一門線上課程變成可搜尋的筆記
上傳課程影片、閱讀和討論,讓 AI 把它們整合成可以隨時複習的模組筆記。