データサイエンスは統計学の流れを汲んでいます。
統計学には、記述統計(descriptive statistics)と推測統計(inferential statistics)という2つの分野があると言われます。
記述統計と宇井測統計の違いは、前者が実際に集められたデータ(実測値)だけを対象にするのに対し、推測統計は集められたデータの背後にある、より一般的な特徴を扱う点です。
記述統計では確率という考えい方はあまり出てきません。何らかの値を推定するということもしません。これに対して、推測統計では確率や、確率に基づく推定を扱います。
統計モデルは以下の3つの特徴を持つ。
データ化された現象を説明するために作られる。
データのばらつきを表現するための「確率分布」を基本的な部品としている
データとモデルを対応付けるための手続きがあり、当てはまりの良さを定量敵に評価できる。
ばらつきとは個体差であり、三角形で言えば、微妙な歪みや角度の違いなどに相当する。;統計解析ではこれを確率分布として表現することで、モデルと個体差との関係を表す。
データサイエンスの文脈で「モデル」と言えば、基本的に統計モデルを指すと考えればよいが、実務の中でモデルという言葉が使われる場面は、多様で次のような使い方がされている。
・値のばらつきに対する確率分布のあてはめ
→このモデルは正規分布を仮定しているなど
・要因と結果の数学的な関係
→このモデルは売上が天気に大きく依存することを表しているなど
・個々のアルゴリズムが前提としている数学的表現
→ニューラルネットワークは線形回帰よりも複雑なモデルであるなど
・数学的表現に実際のデータを当てはめた結果
→ペナルティの違いにより2つの異なるモデルを得たなど
データに対して何らかのモデルを当てはめて考えること、もしくは当てはめる過程そのものをモデルという。
統計モデルは、現実のデータ(実測値)の園も出なく、データに対して何らかの数学的原理を仮定し、抽象化して写し取ったもの。
モデルが持つ抽象化された特徴は、自然現象や社会現象の法則性を表す一周の仮説と考えることができます。モデルがデータに良く当てはまっていて、かつ十分に信頼できるものであれば、その仮説はより確からしいと言える。例えば「接客への満足度がサービスの解約に影響している」という仮説は、接客への満足度を、解約の確率をyとして数式の形でモデルを表現し、数式と実際のデータを比べることでその信頼性を検証することが出来ます。
現実を抽象化してモデル化することには、モデルに対して一定の条件を当てはめれば、その条件に対応した結果を推定(予測)できる利点もある。例えば、接客への満足度を示すXに何らかの値を当てはめれば、解約の確率yを計算することが出来る。
このような予測を、より複雑なモデルで精緻に行うために発展してきた分野が機械学習だ。ディープラーニングのような手法も、通常の統計モデルより高い予測精度を得るために生み出された手法であると言える。
データサイエンスの中には統計学とその応用である統計解析、ナレッジディスカバリー(またはデータマイニング)、機械学習といった分野が含まれる。これらの共通点は、でーたからなんらかの価値を引き出すことを目的としていること、また、それに加えて、統計モデルを基礎にしていること。