Coursera Machine Learning: Week3-2 Regularization - ウシジの深層・強化学習の学習

移転しました。

f:id:ushiji:20191121133558j:plain

CourseraのMachine Learningについてまとめています。前回は、Week3の前半、Classificationについてまとめました。

今回は、Week3の後半、Regularizationについてです。

Week3
- Regularization
- プログラミング演習

Week3

Regularization

Regularizationは、オーバーフィットを避けるために行います。Linear regressionとLogistic regressionのオーバーフィットのイメージです。

f:id:ushiji:20191127104613p:plain — Linear regression_Under fit Over fit

f:id:ushiji:20191127104643p:plain — Logistic regression_Under fit Over fit

Overfittingを避けるためのオプションとしては以下があります。

Feature（変数、特徴量）の数を減らす

どのFeatureを使うのかマニュアルで選ぶ
Model selection algorithm（本Machine Learningコースで後ほど学ぶそうです）

Regularization

全てのFeatureをキープするが、パラメータの大きさを小さくする（多くのFeatureがあり、それらが少しずつ予測に寄与している場合にうまく動くそうです）

Regularizationでは、Overfitを避けるために、パラメータθにペナルティをかけます。具体的には、下記の図のように、コスト関数にθの二乗を加え、θが大きくなり過ぎないようにします。こうすることで、予測のラインがグニャグニャの複雑すぎるものになることを防ぎます。

f:id:ushiji:20191127130141p:plain — Intuition of Regularization

Regularizationを行う場合のLinear Regressionのコスト関数は、以下になります。

f:id:ushiji:20191127130706p:plain — Regularization Cost function

Regularizationの対象とするθは、θ0（Featureと関係のないバイアス項）を除いた、θ1以降です。また、λはRegularizationパラメータで、マニュアルで決める必要があります。λが大き過ぎると、θが全て0に近くため、Under fitしてしまい、小さ過ぎると、Regularizationの意味がなくなり、Overfitしてしまいます。

Gradient Descentについては、これまでと同様に、コスト関数をθで微分したものにLearning rateを掛けて更新していきます。具体的には下記の数式になります。