カテゴリー
機械学習

Machine Learning [Week 1/11] Introduction

Machine Learning (Stanford University) の受講メモ

Introduction

  • Supervised Learning
    • それぞれのサンプルに正解がある
  • Unsupervised Learning
    • クラスタリング、セグメント分け
    • カクテルパーティー問題
    • singular value decomposition

Linear Regression with One Variable

Model and Cost Function

  • Regression Problem
    • 予測が実数値
    • 不動産価格を予想
    • 写真から年齢を予想
  • Classification Problem
    • yが少数の離散値しか取れない
    • 不動産のカテゴライズ
    • 腫瘍が良性か悪性か
  • 表現
    • Training Set
    • Learning Algorithm
    • h: hypothesis(仮説)
      • 適切な名前じゃないかもしれないが習慣的に
      • predict
  • how to represent h?
    • \(h_\theta(x)=\theta_0+\theta_1x\)
    • Shorthand: \(h(x)\)
    • This is Linear regression
  • cost function(squared error function, mean squared error)
    • h(x) is close to y for training ex(x,y)
    • goal: minimize: \[
      J(\theta_0,\theta_1)=\frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2
      \]

Parameter Learning

  • gradient descent
    • Have some function: \(J(\theta_0,\theta_1)\)
    • Want min \(J(\theta_0,\theta_1)\)
    • Outline:
      • Start with some \(\theta_0,\theta_1\)
      • Keep changing to reduce \(J(\theta_0,\theta_1)\) until end up at a minimum.
  • gradient descent algorithm
    • repeat until convergence
      • \(\theta_j:=\theta_j-\alpha \frac{\partial}{\partial \theta_j}J(\theta_0,\theta_1)\)
      • learning rate: \(\alpha\)
      • simultaneous update: for j=0 and j=1
      • if alpha is small, gradient descent can be slow.
      • if alpha is too large, gradient descent can overshoot the minimum. may fail to converge収束, or even diverge発散.
      • derivativeはステップごとに小さくなるのでalphaを変更する必要はない
    • “Batch” Gradient Descent
      • バッチ勾配降下法
      • 教師データの全体を見るという意味でBatch
      • 線形回帰モデルを

Linear Algebra Review

Option

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です