データ解析の出発点は、でーたを効率的に整理・要約することによって、その特徴を抽出することです。整理・要約方法には、①図表やグラフによる方法 ②数値による方法 の二通りがあります。
図表やグラフはデータ分布の概略を把握するのに適しています。
また、数値による要約はデータを正確に理解する助けとなります。
(1)変量データの要約法として最も基本的なものは度数分布表とヒストグラムです。
データをその値の大きさに応じていくつかの階級に分類し整理したとき、それぞれの階級に属するデータの数を度数と言います。階級と度数を対応させたものを度数分布と言い、それを表にしたものを度数分布表と言います。度数の総和はデータ数に等しくなります。階級地とは各階級を代表する数値で、階級の下限と上限のちょうど中間の値が選ばれます。また、階級の度数がデータ数に占める割合を相対度数と言います。相対度数の総和は1となります。累積度数はその階級までの度数の累積値です。最後の階級の累積度数の値はデータ数に一致します。
度数が最大となる階級はデータ分布の中心をなす階級と考えられます。その階級の階級地をどモード(最頻値)と言います。
②ヒストグラムは度数分布表を柱情グラフで表現したもの。
ヒストグラムを観察することにより、データ分布の概要を視覚的に把握することが出来る。縦軸が相対度数のヒストグラムは確率密度の関数に対応する。
ヒストグラムを見る際のポイントはA.峰が1つか2異常か、B.中止院の位置、C.散らばり具合、D計上(特に歪み)、E.外れ値の5つ。
峰が1つの場合、ヒストグラムは単峰であるといえる。。この場合、峰がピークとなる柱を分布の中心と考え、そこからの散らばり具合をチェックします。しかし、峰が2つ以上あると、測定対象が複数の異質な集団を含む可能性があります。例えば、ある年に死亡した人の死亡年齢の分布は、都市や国によって峰が2つ現れます。一方は老舗での死亡の峰であり、他方は乳幼児年齢での死亡の峰です。両集団は異なる性質ですから、それらを合併した分布の中心に意味があるかもわからない。
分析目的によってはまず分離したほうがいい場合もある。