母集団と標本

(1)全数調査と標本調査

 統計調査は、対象をすべて調査する全数調査と一部を抽出して調査する標本調査がある。全数調査はまた悉皆調査、センサスともいう。全数調査は費用も時間もかかるので、国勢調査など限られた調査しか行われない。
 一方、対象となる集団全体(母集団)から一部(標本、サンプル)を抽出して調査を行い、調査結果に基づいて母集団の特性を推定する調査方法を標本調査という。

(2)母集団と標本

 統計の対象とする人や物の集まりを母集団という。母集団は具体的な場合もあるし、抽象的に想定される場合もある。母集団を構成する変数がある確率分布をもつとき、その分布を母集団分布という。分布の特徴を数値の形で表すものを特性値といい、母集団分布の特性値を母数という。母平均、母分散などが母数の例である。
 全数調査を行うことができれば知りたい母数はズバリわかるが、通常は母集団を代表すると考えられる一部分を抽出して調査を行う。この取り出された一部分を標本と呼ぶ。抽出の方法は無作為であることを仮定する。標本平均や標本比率など標本から計算された特性値、すなわち、一般に標本観察値の関数として定義される計算値を統計量という。統計量から母数を推定する。
 母集団分布が母集団を構成するデータを変数とした確率分布であるのに対して、標本分布は、母集団から抽出したある標本を構成するデータの分布ではなく、標本Aの特性値、標本Bの特性値、標本Cの特性値・・・、それぞれから取られた統計量が作る確率分布である。母集団分布からの観測値からなる標本 から、これらの関数として統計量を計算すると、は確率変数となり、ある確率分布に従って分布する。この統計量を変数とする分布を標本分布というのである。現実の統計調査では標本は1回しかとらないので、標本A、標本B・・・といっても、理論的にそのような想定をするということである。標本を取り出す際に、標本を母集団に戻してから抽出する場合には、何回でも取り出すことができるので、サイコロ振りと同様に抽出の確率を一定に仮定できる。


 (母集団と標本の例)
 選挙予測のための投票行動を調べる場合、有権者全体は母集団ではない。実際に投票に行く人全体は選挙前に確定されないので、出口調査が行われる。この場合は、実際に投票した人が母集団で、出口調査の対象となった人が標本である。
 薬剤の効果を調べるときには、病気を持つ人全体が母集団であろうが、想定するだけで具体化はできない。





 標本理論では、母集団は正規分布を仮定することが多い。正規分布は左右対称な釣鐘型の分布である。


(3)標本からの母数の推定

 標本データから母数を推定する方法は、点推定と区間推定がある。
 標本は無作為抽出(等確率)なので標本データは確率変数である。標本A、標本B、・・・と(頭の中で仮想的に)繰り返し標本をとったとき、変数である各Xi は母集団分布と同じ分布をとる。したがって、母集団と同じ分布をもった各変数から計算される統計量もある確率分布をとる。
 母数を区間で推定する方法を区間推定といい、母数θ は、ある確率とともに区間で推定される。θLOWER < θ < θUPPER となる確率が例えば95%となるように定めるとき、信頼係数95%の信頼区間、あるいは95%信頼区間という。推定の精度を上げるということを信頼係数を例えば99%とすることだと考えると、信頼区間の幅は大きくなる。つまり、信頼度が大きいと区間幅は大きくなる。区間推定を利用して、必要とする信頼係数に対応する標本サイズを決定することができる。
 これに対して、点推定は、一つの値で母数を推定する。平均値の場合は、標本平均が母平均の不偏推定量である。分散の場合は、標本分散はデータ数を分母とすると不偏推定量ではないので、変数の自由度で分母を修正する。一般的にはモーメント法や最尤法(さいゆうほう)などの点推定の方法がある。標本調査によるn個のデータから得られる推定値はたまたまそうなったので、同じ条件でもう一度調査をすれば別の推定値が得られる。点推定量が良い推定量であるかどうかは、不偏性(偏りがないこと)、最小分散性、一致性(標本サイズを大きくすると母数に一致)という基準で評価される。
 最良の点推定値であっても誤差があるので、誤差を と書けば、正確には の形で表されるべきものである。
 社会・経済統計の標本調査は一般に点推定であるが、このような誤差表記はされていない。誤差の表記ではなく標本設計の問題として、標準誤差率が○○%となるように標本設計をしている、というような注記があることがある。

(4)点推定と標準誤差(正規分布の場合)

 点推定は、1回の観測で得られた標本から計算された統計量から母数を推定する。
 標本統計量を母数の推定値と考えているので、標本分布は母数の推定値としての統計量の誤差の分布を示していると考えられる。
 標本統計量のばらつきの大きさは標本分布の分散 で評価されるが、その正の平方根を標準誤差(standard error)といい、 と表す。すなわち、標本分布の標準偏差を標準誤差という。統計量が標本平均であるときは、SEM(standard  error of mean)という。

 標準誤差は、正規分布に従う母集団の平均の場合は次のようになる。

(注)母集団の特性値がわからないから標本をとって母数の推定をしようとするのに、母集団の分散がわかっているものとして行論するのは奇妙に見えるかもしれないが、説明の順序としてやむを得ない。


 統計量   は、各変数  が正規分布をとる母集団から無作為に抽出されるので正規分布をとり、確率変数である統計量も正規分布となることから、


 とすると、標本平均の分布の分散と標準誤差は次のように表される。



(注)標本平均の分布の分散は、サイズ の標本A、標本B・・・( 個)の標本平均 を変数とする分散であるから素直に考えると、 から分散を構成すべきようにも思えるが、そうすると袋小路に陥ってしまう。各変数が独立に正規分布にしたがっていることから、変数が和の場合の平均と分散(次式)を用いて導出する。



 母分散は未知であるので、観測された標本の不偏標準偏差で代用する。

 すなわち、観測値から得られる平均値の標準誤差は次式となる。


 標準誤差の分母に標本サイズが表れているので、標本サイズが大きくなると誤差が小さくなることがわかる。(世の中の常識を確認する結果となっている)

 誤差率は

 である。


(5)標本誤差

 標本調査では、調査対象を無作為に抽出して調査するので、標本から得られた推定値は必ずしも母集団の値とは一致しない。どの対象が選ばれるかによって変動する。標本誤差は、このような推定の目的値(母数)の周りを変動する、推定量の確率変動をさす概念であるが、誤差の内容を具体的に表す概念ではない。
 点推定値を調査から得られた平均値や比率とすると、それらが母数とどれだけ食い違っているかは次の式で表される。しかし、母数がそもそも分からないから、誤差の大きさを具体的に示す式になっていない。


 これに対して、標準誤差は、仮想的に同じ標本調査を同じ条件で多数回行うと仮定して、標本理論に基づいて得られる値である。
 誤差を表す尺度は種々あるので、例えば、「標本誤差は、標準誤差率で5%」などと具体的尺度を添えて用いる。


ページトップ