What you learned
Lec 17: Introduction to Bayesian Statistics
- frequentist
- 古典的な統計学。Unit4までやってきた統計。Bayesianに対する言葉。
- frequentist vs bayesian
- bayesian
- 特徴
- prior beliefを具現化したprior distributionをdataでupdateして、posterior distributionを得る
- true parameter
- r.v or unccertanity regarding the true parameter
- specifyするもの
- set of possible parameter
- prior distribution π(theta)
- 特徴
- frequentist
- 特徴
- dataからのみ推定
- true parameter thetaをfixして推定する (MLE,MM,M-estimation)
- true parameter
- r.vではない
- specifyするもの
- statical model for the observation
- set of possible parameter
- probability model
- statical model for the observation
- 特徴
- bayesian
- Beta distribution
- 統計の道具としてのベータ分布
- 針金細工のような分布
- prior beliefを反映した分布を表現するのに便利
- priorのデザイン
- 確率pがパラメーターであれば、uniform,betaなど
- prior beliefを反映した分布を選択する
- prior and posterior
- prior
- 慣習的にπで表すことが多い
- data/experiment
- Ln(|theta)はconditional joint liklihood.つまり、conditional joint pdf/pmf. thetaをfix.
- これは、frequentistのlikelihoodと同じ
- posterior
- データX1,,,,,,Xnの条件付きのthetaの分布をposteriorと呼ぶ
- likelihoodにpriorをかけたものに比例する(not normarization).proportional notationで表される。
- normarizationはposteriorが1になるようなな定数
- you have likelihood
- frequentist
- maximize this thing
- baysian
- multiple a prior to likelihood and I have a posterior
- frequentist
- prior
- no imformative priors
- 事前情報がない場合でもBayesianアプローチは使える。その場合はpriorをどのように選択すればよいか?
- constant pdf : π(θ) ∝ 1
- boundedの場合 : uniform
- unboundedの場合 : properなpdfを定義できない
- improper prior : not integrableなπ(θ).つまり、積分したら数値に収束せず発散してしまう関数。measurable, non-negative function
- improperでもBaysianのstepは適用できる。
- 事前情報がない場合でもBayesianアプローチは使える。その場合はpriorをどのように選択すればよいか?
What you noticed
- priorのπ(theta)の分布を見るときに注意。thetaの分布なのでthetaがxと入れ替わる。parameterと勘違いしないようにする
- proporthional notationに慣れる。基本的にパラメーターに依存しない項は除いてシンプルな形にして考える
- proportionality notation in the process of computing the posterior distribution for a parameter of interest proportionality notationが結構重要
Lec 18: Jeffrey's Prior and Bayesian Confidence Interval
Explain the important factors involved in choosing a prior distribution.
- Bernoulli experimentの場合
- prior
- Beta(a,a) : informativeの時。何かしら実験前に事前情報がある場合
- 確率を表す1 parameterの分布を表すの適している
- Uniform : non-infomativeの時
- MLE = Maximum a posteriorになる
- Beta(a,a) : informativeの時。何かしら実験前に事前情報がある場合
- prior
- Bernoulli experimentの場合
Distinguish between conjugate priors and non-conjugate priors .
- conjugate : priorとposteriorの分布同じ分布族であるとき
- 特にBeta分布はBayesianに適した分布。BetaはposteriorもBeta分布になる?
- conjugate : priorとposteriorの分布同じ分布族であるとき
Compute Jeffreys Prior and understand the intuition behind its significance.
- Jeffreys Prior
- Def
- πj(θ) ∝ √detI(θ)
- fisher infoで定義される。d=1の時は単にfisher info root squared.
- πj(θ) ∝ √detI(θ)
- お気持ち
- これもnon-informativeの時のprior
- データ(observation)のstatical model(分布)に関連したpriorを定義しとけば何かと便利そうじゃないという感じ?
- experimentの分布でpriorが決まる(決めちゃう)
- This prior depends on the statistical model used for the observation data and the likelihood function.
- property
- The Jeffreys prior gives more weight to values of theta whose MLE estimate has less uncertainty.
- As a result, the Jeffreys prior yields more weight to values of theta where the data has more information towards deciding the parameter.
- The Fisher information can be taken as a proxy for how much, at a particular parameter value theta, would equivalent shifts to the parameter influence the data. Thus, Jeffreys prior gives more weight to regions where the potential outcomes are more sensitive to theta slight changes in .
- ↑の話はなんとなく共振回路のq値的な話と似てるかも。shapeのシャープさがsenstivieに関わるところ。
- つまり、fisher-infoが大きいほど、senstiveなJeffreys priorになる
- reparamaetrization invariance(パラメーター付け替え不変)
- まだ理解できていない
- prameterを媒介変数表示した時に、Jeffreys priorは媒介変数で置換しても不変
- Jeffereys priorをただ媒介変数で置換しただけではだめ。媒介変数でのfisher-infoを求め直す必要がある。その際に元のパラメーターを媒介変数で微分する項が出てくるなど変換には注意。(と言っても高校数学レベルの話)
- Def
- Jeffreys Prior
Apply Bayesian statistics in simple estimation and inference problems.
- Bayesian confidence region
- これはfrequentistのC.IとBayesian confidence regionは明確に異なる概念
- posteriorのparameter spaceのrandom subset RがBayesian confidence region
- 求め方は簡単で、posteriorから1-αの区間(なので、いまいちC.Iとの明確な違いがわからない)
- あと、Rはpriorい依存する
- Bayesian estimation
- Bayesian Frameworkでも、frequentistでやったようにパラメーター推定ができる
- [1] Bayes estimator
- [2] Maximum a posteriori(MAP)
- posteriorを最大にするパラメーター
- Bayesian confidence region
Compare and contrast results from Bayesian and frequentist statistical methods.
What you noticed
- Bayesでは、Beta分布、Gamma分布にお世話になることが多い
- proper or improperの判別は、parameter spaceで積分して収束するかしないかで判別。収束しないと正規化できない。
- inverse Gammaだと?!ってなった。気づかなかった
その他
- Beta,Gamma関数出てくると、すぐにstring theoryの教科書とか出してくるから、弦理論ちょっと読みたくなった。
- 以下は、参考文献ではなく読みたいなという本(ちょうどMITだし、学部レベルの量子力学、電磁気学程度の知識で読めるらしい。)
参考文献
- 作者: B.ツヴィーバッハ,Barton Zwiebach,樺沢宇紀
- 出版社/メーカー: 丸善プラネット
- 発売日: 2013/09/01
- メディア: 単行本
- この商品を含むブログを見る