Unit1 Introduction to Statistics
What you learned
Lec1: What is statistics
Lec2: Probability Redux
- Sample average
- estimatorとして使う
- probabilistic tools
- LLN(Laws(weak and strong) of large numbers)
- a.s. convergence
- Convergence in probability
- CLT(Central limit theorem)
- Convergence in distribution
- Hoeffinding's inequality
- sample size nが小さくても使える。(n=1でもいい)
- CLTが使えない時の代り、ただし精度はCLTほどでない
- Consistent estimator
- Gaussian distribution
- PDF, CDF
- Affine transformation
- Standardization
- Symmetry
- Table(CDF of Standard normal distribution)
- Quantiles
- Three types of convergence
- Almost surely(a.s.) convergence
- Convergence in probability
- Convergence in distribution
- Addition, multiplication, division
- Almost surely(a.s.) convergence and Convergence in probability
- Addition, multiplication, division (Slutsky's theorem)
- Convergence in distribution
- Continuous mapping theorem
- LLN(Laws(weak and strong) of large numbers)
What you noticed
- sample averageにCLTを適用することで、Gaussian distributionに分布収束する。その際sampleのr.v.はGaussianである必要はない、任意の分布のr.v.でも大丈夫
- sample sizeが小さくてCLT適用できない時は、Hoeffinding's inequality
- CLTもHoeffinding's inequalityもestimatorであるsample averageがunknownな母集団の期待値にどれくれい近いかを測るために使う
その他
- 線形代数の復習が必要
- 行列の積
- 内積、外積
- 一次独立、一次従属
- ランク、ランクの求め方
- 面倒なときは、wolframalphaを使おう www.wolframalpha.com
参考文献
a.s. ja.wikipedia.org
Hoeffinding's inequality seetheworld1992.hatenablog.com
確率収束について kriver-1.hatenablog.com
Unit2 Parametric Inference
What you learned
Lec3: Parametric Statistical Models
- Trinity of statistical inference
- Estimation
- Confidence intervals
- Hypothesis testing
- The goal of statistics is to learn the distribution of r.v
- discrete r.v.s
- statistical model is a pair of sample space and a family of probilty distributions.
- well specified
- parametric
- non-parametric
- semi parametric is a hybrid model
- nuisance parameter (撹乱母数、迷惑母数)
- Linear regression model (線形回帰モデル)
- Cox proportional Hazard model (コックス比例ハザードモデル) 生存モデル
- identifiable
Lec4: Parametric Estimation and Confidence Intervals
- Definitions
- Statistic
- Any measurable function of the sample
- Rule of thumb : if you can compute it exactly once given data, it is measurable.
- Estimator of theta
- Any statistic whose expression does not depend on theta(data)
- weakly (resp. strongly) consistent estimatorの条件
- asymptotically normalの条件
- estimatorはr.v. そのestimatorも正規分布に近似できる。
- 近似した際の、分散をasymptotic variance
- Statistic
- Bias of an estimator
- Risk (or quadratic risk)
- varianceとbiasを求めて、これを求めるという流れ
- MSEと同じ意味合いだけと思うけど、言葉は区別した方いいのかな
- Confidence intervals(C.I.)
- confidence interval of level 1 - alpha for theta
- any random interval whose boundaries do not depend on theta
- true value theta が、interval内である確率が1 - alpha 以上のintervalのこと
- C.I. of asymptotic level 1 - alpha for theta
- any random interval whose boundaries do not depend on theta
- sample size nの極限を取った時に、上記のような条件を満たすintervalのこと
- confidence interval of level 1 - alpha for theta
- A confidence interval for the kiss example
- sample spaceの分布がBer(p)の場合
- CLTより、estimator(sample ave)を標準正規分布に近似がスタート
- 標準正規分布への近似だけでは、完璧なC.I.は求まらない。なぜならパラメーターに依存した形だから。(今回の場合は、true value p)
- 次の3つの方法で求める
- Solution 1. Conservative bound
- Solution 2. Solving the (quadratic) equation for p
- 実際は、解の公式よりコンピューター計算
- Solution 3. plug-in
- Slutskyより、true vale pの代りにestimatorをplug-inして求める
What you noticed
- どの分布が適切かを選択するのが、statistical modelingの第一歩
- その際に、離散な確率変数であれば「台」に注目するのもポイント。有限個なのか無限個なのか
Lec5: Delta Method and Confidence Intervals
C.I.の復習
Red line TのKenall stでの待ち時間のモデル(delta method)
- 電車の到着間の時間を計測する(つまり次の電車が来るまでの待ち時間)
- この各待ち時間をモデル化する
- 以下の様に仮定する
- Mutually independent
- パラメーターlambdaの指数分布
- この時、lambdaをestimateする
- lack of memory
- why would I use exponential?
- It's a very common distribution for inter-arrival times
- main reason "lack of memory"
- why would I use exponential?
- exponentialのexpectationからわかるように、LLN -> CLTを適用しても、単純にsample aveをestimatorにしてただけではlambdaのestimateできない
- ここで、delta methodの登場
- delta method
- frequentist interpretation
- 複数回試行を行ったとき、true value lambdaがC.I.に入る確率は95%
- 1111011101111..のような結果になる。