? データの特性
? 過程の定常性の確認と加工
本稿で扱うデータは2005年度の東京大学合格者数が日本の上位36位に該当する高校の合格者数と合格者の内の現役合格者数である。本稿では、前者を「pass」と、後者を「genneki」と表記している。また、これらのデータを時系列過程に変換したものは、接尾に「.ts」と付記する。
本稿で扱うデータは、Pillips Perron単位根検定の結果、非定常過程ではない事が確認されたため、差分操作等のデータ加工は行っていない。
> pass<-read.table("c:\\file-R\\passed.txt") #Loading Data
> genneki<-read.table("c:\\file-R\\genneki.txt")
> pass.ts<-ts(pass) #Changing into Time Series
> genneki.ts<-ts(genneki)
> PP.test(pass.ts) #Confirmation of Stationarity
Phillips-Perron Unit Root Test
data: pass.ts
Dickey-Fuller = -9.5824, Truncation lag parameter = 3, p-value = 0.01
> PP.test(genneki.ts)
Phillips-Perron Unit Root Test
data: genneki.ts
Dickey-Fuller = -8.1133, Truncation lag parameter = 3, p-value = 0.01
? 散布図と基礎統計量
次に、扱うデータの散布図を描画する。
> Data<-data.frame(pass.ts,genneki.ts)
> attach(Data)
> plot(Data,main="Scatter Plot",xlab="Number of those who passed Tokyo Univ",
+ ylab="Number of those who passed right after graduating")
また、基礎統計量を挙げる。これより、合格者数の平均値は43.72であり、現役合格者数の平均は30.06である事が分かる。また、相関係数が0.9818であるため、強い正の相関がある事が分かる。
データ分析論レポート
2変量データの整理と単回帰分析:東大合格者数と現役合格者数との関係
概要
本稿では、2005年度高校別の東京大学合格者数のデータを用いて、合格者数とその内の現役合格者数のデータを用いて、両者の間における統計的関係の有無を分析している。特に、本稿では、東京大学入学者数の上位36位の高校を取り上げている。扱うデータは時系列過程ではなく、Pillips Perron 単位根検定でも定常過程である事が確認されたため、差分操作等のデータ加工を行う必要が無いと判断している。以下、散布図等によりデータの特性を観察し、合格者数を説明変数とし、現役合格者数を被説明変数とする単回帰分析を行うと共に、予測されたモデルの残差について診断を行っている。
Ⅰ データの特性
ⅰ 過程の定常性の確認と加工
ⅱ 散布図と基礎統計量
Ⅱ 2変量ノンパラメトリック確率密度推計
Ⅲ 線形単回帰分析と診断
ⅰ 線形単回帰分析
ⅱ 診断プロットの出力
ⅲ 残差のメディアンの確認
ⅳ 誤差分散の確認
ⅴ 誤差項の独立性の確認
ⅵ Durbin-Watson検定による系列相関の確認
ⅶ 誤差項の正規性の検...