Unit3 Methods for estimation

What you learned

Unit2までは、estimatorをsample aveとして直感的に決めてきた
今回は、最適なestimatorを決める手法を学ぶ
今までは、sample aveの期待値がLLNよりパラメーターに収束する場合だけしか、ほぼ扱ってこなかった。
そのため、sample aveはestimatorとして活用できた。
しかし、パラメーターの値に収束しない場合は、estimatorは何にすればよいだろうか？
大きく、次の３つの方法が考えられる。
1. Maximum likelihood estimation(最尤法)
2. Method of moments
3. M-estimators
Total variation distance(TV)
- これはいわゆる、距離
Kullback-Leibler divergence(KL)
- 相対エントロピーとしても有名
- 確率測度間の距離を最小化問題は、KLを使って考える
- TVは距離であったが、KLは距離の定義を満たさないので距離ではない、divergenceと呼ばれる
- KLの最小 ⇔ likelihoodの最大値。This is the maximum likelihood principle
Likelihood
- データとパラメーターを引数にとる関数
- 値は確率or確率密度と考えていい。joint pmf or joint pdf

以下の確率変数のlikelihoodを計算
- Bernoulli
- Poisson
- Gussian
- Exponenssial
- Uniform
Maximum likelihood estimator(MLE)
- log-likelihood estimatorは実際に計算するときに便利なのでよく使う
一般的な教科書はだいたいminimizingで書かれているが、この授業ではmaximizingで進める
concave(上に凸)/convex(下に凸)の判定
- gradientの導入
- Hessian matrixの導入
- Hessian matrixからconcave/convexを判定
実際にMLEを計算
- Bernoulli
- Poisson
- Gaussian