今回は、芸術作品の価格がどのような要素によって、成り立っているか数量的に分析する手法である回帰分析について考えていきます。
◆回帰分析について
回帰分析とは、変数間の数量的な関係を表す母数(パラメータ、回帰係数)である\(β_1,β_2,β_3,β_4,・・・,β_K\)の推定を行ったり、仮説検定を行うことです。
下記のような変数間に線形関係を表す
\(Y=α+β_1X_1+β_2X_2+・・・+β_kX_k\)
と式があるとします。
ここでのXを説明変数といい、Yを被説明変数といいます。
説明変数Xが1つの場合、つまりK=1の場合を単回帰モデルといいます。
説明変数Xが2つ以上の場合、つまりK≧2の場合を重回帰モデルといいます。
回帰係数\(β_1\)は、\(X_1\)以外の変数を一定しとしたときの\(X_1\)が1単位増えたときYが何単位変化するかを表す係数になります。
仮にアートの作品価格(万円:単位)が被説明関数Yだとし、\(X_1\)が作家の作家活動期間の長さ(年:単位)だとすると、\(β_1\)は「作家の活動期間以外の要因を一定として、活動期間が1年増えた場合、作品価格は何万円変化するか」を表します。
仮に、\(β_1=0.3\)だとすると、活動期間が1年増えると、作品価格は、0.3万円増えることを表します。
問題1 回帰分析の基礎 ★☆☆☆☆
\(Y=α+β_1X_1+β_2X_2+・・・+β_kX_k\)が与えられているとき、\(X_1\)が1増えたとき、変化後をY’としたとき、変化前のYとの差は\(β_1\)になることを求めなさい。
◆解答解説
\(X_1\)が1単位増えると、\(Y=α+β_1X_1+β_2X_2+・・・+β_kX_k\)は
\(Y’=α+β_1(X_1+1)+β_2X_2+・・・+β_kX_k\)へと変化する。これより、YからY’への変化は
\(Y’-Y=[α+β_1(X_1+1)+β_2X_2+・・・+β_kX_k]-[α+β_1X_1+β_2X_2+・・・+β_kX_k]\)
=\(β_1\)
となる。
◆最小2乗法
下の図は、令和3年の社会生活基本調査における各都道府県における美術鑑賞率Yとクラシック音楽の鑑賞率Xのデータ47個を散文図にしたものになります。
散文図の各点を(\X_1,Y_1\)),(\(X_2,Y_2\)),・・・,(\(X_{47},Y_{47}\))とします。※サンプル数はn=47となります。
これを見ると、クラシック音楽の鑑賞率Xが増加するにつれて、美術鑑賞率Yが増加しているため、両者に正の相関が見受けられます。

このようにX,Yに線形の関係があると考えて、\(Y=α+βY\)があると考えたとき、α,βを推定してみましょう。\(\tilde{Y}=\tilde{α}+\tilde{β}X\)という式をためしに引いたとします。\(\tilde{α}\),\(\tilde{β}\)は任意の値で、値を変えると直線も変わります。Y,Xの関係を表す最もらしい直線はどのような直線なのでしょうか?
ここで、\(Y_i\)と\(X_i\)で評価された直線上の値\(\tilde{Y_i}=\tilde{α}+\tilde{β}X_i\)について考えていきましょう。
\(\tilde{μ}_i=Y_i-\tilde{Y_i}=Y_i-(\tilde{a}+\tilde{β}X_i)\)
これを上記の式のように残差と定義します。すべての残差には正と負があり、その総和は打ち消されてしまうため、、残差を2乗して総和を取りましょう。
\(ε(α,β)=\sum_{i=1}^{n}\tilde{μ}_{i}^2=\sum_{i=1}^{n}(Y_i-\tilde{α}-\tilde{β}X_i)^2\)
この残差の2乗の総和を残差2乗和といい、この値が小さい時のα,βの値を考えると、その時に最もらしいY,Xの関係が導けます。
このような残差2乗和を最小にする\(\tilde{α},\tilde{β}\)を選ぶ推定方法を最小2乗法(Ordinary Least Squares:OLS)といいます。また、選ばれた\(\tilde{α},\tilde{β}\)を最小2乗推定量といい、ハットをつけて\(\hat{α},\hat{β}\)のように表します。
この最小2乗推定量は
\(\hat{α}=\bar{Y}-\hat{β}\bar{Y}\)
\(\hat{β}=\frac{\sum_{i=1}^{n}(X_i-\bar{X})(Y_i-\bar{Y})}{\sum_{i=1}^n(X_i-\bar{X})}\)
