統計学の極意
デイヴィッド・シュピーゲルハルター 著 宮本寿代 訳
◆英国で異例のベストセラーとなった統計学入門書。著者は元・英国統計学会会長
本書は、英国統計学会(王立統計学会)の元会長である著者による、数式をほとんど使わない統計学入門書、The Art of Statistics: Learning from Data by David Spiegelhalterの邦訳版です。英国では、この種の本としては異例のベストセラーとなり、英Amazonの書籍総合ランキングで最高28位となりました。
ベストセラーになったのには理由があります。本書は徹頭徹尾、すべての項目で、現実の事件・事故・世論調査などを例にとって解説しています。扱われる事例は、タイタニック号沈没事故や、数百人を殺めた連続殺人医師、発掘されたリチャード3世のものと目される遺体の真偽、ベーコンの発癌リスクや、さらには英国人の性的パートナーの生涯人数の調査まで、いずれも興味を惹くものばかり。これらのデータに、適切な統計学的な手法を当てはめると、驚くべきことがわかること(あるいは意外にも、わからないこと)を、次々と示していきます。一貫して、数式はほとんど出てきませんが、そのロジックはきっちりと解説。そのわかりやすさ・面白さに多くの人が驚き、本書は高い評価を得ることとなりました。
◆「PPDACサイクル」「ブートストラップ法」「再現性の危機」など現代的論点を網羅
本書は、統計学教育でも長年の経験を持つ著者が、データサイエンス時代に対応した新しい統計学入門書を著そうと、書いた本です。このために著者は、「PPDACサイクル」を骨子として、議論を展開しています。これは「問題(Problem)」「計画(Plan)」「データ(Data)」「分析(Analysis)」「結論・コミュニケーション(Conclusion, Communication)」の頭文字をとったもので、この順に探究を進め、最後にまた「問題」に戻ることを繰り返すことで、対象への理解を深めていくという、近年、統計学教育においても注目されている、問題解決志向のアプローチです。旧来の統計学教育では、定型的な数学的テクニックの使い方(「分析」の数学的な側面)を偏重してきましたが、本書はそこばかりではなく、おろそかにされがちな実験や調査の「計画」や、「データ」の吟味、さらには、適切なデータビジュアライゼーションで「結論」を伝えることの重要性も、詳細に解説します。
ブートストラップ法を多用したり、機械学習についても1章を費やしたりと、計算機統計学的な手法について詳しく解説していることも特徴でしょう。さらに、初学者を混乱させがちな確率論を極力、冒頭では扱わず、本の後半に入ってからじっくりと解説していることも本書の良さで、わかりやすさにつながっています。著者は、ベイズ統計学を信奉する「ベイズ派」であることを自認しているだけに、主観的確率や認識論的不確実性といった概念についても詳述、ベイズ統計による推論についても1章をさいて、基礎からベイズ統計モデリングまで、とてもわかりやすく解説しています。
このほかにも、P値ハッキングなどの「再現性の危機」の問題、統計学的結果が誇張されて報道される問題、さらに報道の読者・視聴者がそれを批判的に吟味できないというデータリテラシーの問題なども取り上げています。本書は、入門者が知るべき統計学の現代的論点を網羅しており、まさに待ち望まれた「統計学入門書最新決定版」と言えるでしょう。本書が多くの初学者の助けとなることを願っています。
(担当/久保田)
目次
図表一覧
序文
英国史上最多殺人犯と統計学
経験をデータに変えることの難しさ
問題解決志向で統計学を教える
本書について
まとめ
第1章 割合を比較するとき カテゴリデータとパーセンテージ
病院の管理のずさんさは統計に表れるか?
データ提示のしかたと受ける印象
カテゴリ変数とは何か、どうグラフに表すか?
2つの割合を比較するのがやっかいな理由
まとめ
第2章 数値データを要約して伝える 数値がたくさんある場合
数の分布を図に表す方法と多くの数の代表値
データ分布の広がりかたを表現する方法
分布の広がりのパターンの違いを表現する
2つの変数間の関係の程度を表現する
時系列での傾向を表現する
統計学における情報伝達のルール
統計学はストーリーを語る
まとめ
第3章 データから学ぶためデータについて考える 母集団と測定値
生のデータから知りたいことを導くまで
データから学ぶ 「帰納的推論」のプロセス
すべてのデータが手に入る場合
母集団分布が「鐘形曲線」の場合
実はわかりづらい「母集団とは何か?」
まとめ
第4章 何が何の原因か?
原因と見せかけて原因でないもの
「相関関係は必ずしも因果関係を意味しない」
ともあれ「因果関係」とは何か?
無作為化ができない場合にはどうするか?
観測された相関が因果関係ではない場合
観察的データから本当に因果を結論できるのか?
まとめ
第5章 回帰を使って関係性をモデリング
2変数間の関係を表す回帰直線
統計モデルの構成要素「シグナルとノイズ」
説明変数が複数ある場合の回帰モデル
応答変数が比率や時間の場合の回帰モデル
回帰モデル以外にもモデルはある
まとめ
第6章 アルゴリズム、分析、予測
データから学んで答えを提供するシステム
パターンを見つけるアルゴリズム
分類と予測を行なうアルゴリズムの種類
分類ツリーを使って判定する場合
アルゴリズムのパフォーマンスを評価する方法
確率的予測の優秀さを測る合成尺度
過剰適合とは何か、それを抑える方法は?
回帰モデルも予測に使うことができる
より複雑なテクニックなら能力は向上するか?
アルゴリズムを実社会で運用する際の課題
人工知能は統計学的手法を超えるか?
まとめ
第7章 標本調査の結果にどれほど確信が持てるか? 推定値と区間
失業者の調査はどのように行なわれているか?
性的パートナー数調査の統計量の許容誤差
まとめ
第8章 確率とは何か? 不確実性と変動性を伝える手段
確率理論は比較的新しく、実際に難解
期待度数で考えると確率は理解しやすくなる
確率がほかの事象に依存する条件付き確率
いずれにしても「確率」とは何か?
数学的確率分布に驚くほどしたがう現実の事象
まとめ
第9章 確率と統計をまとめる
不確定区間を確率理論を使って推定する
無秩序から秩序が生まれる中心極限定理
確率論で観測値から不確定区間を求めるには?
信頼区間を計算によって求める
世論調査の許容誤差はどれくらいか?
統計学で推測した許容誤差は信じられるか?
数学的確率分布から母数の経時的変化を考える
まとめ
第10章 問いに答えるのに必要なこと 発見の意味を知る
いよいよ仮説検定の段階へ
統計学的モデルにおいて「仮説」とは何か?
帰無仮説を使う正式な検定の考えかた
統計的有意性とP値の関係
確率論を使う検定のさまざまな実例
何度も有意性検定を重ねることの危うさ
ネイマン-ピアソンの理論による検定
まとめ
第11章 ベイズ統計学による推論の方法 経験から学ぶ
統計学の根本原理は統一されていない
ベイズ統計学のアプローチとは何か?
ベイズの定理で重要なオッズと尤度比
尤度比で証拠の確からしさを考える
ベイズ統計学による推論のさまざまな利点
統計学界の長年にわたるイデオロギーの戦い
まとめ
第12章 統計学の誤用・悪用・誤解釈
統計学が正しく運用されていない場合
「再現性の危機」とはどのような問題か?
意図的なごまかしは統計学で発見できるか?
「好ましくない研究行為」とは何か?
好ましくない研究行為が行なわれる頻度
結果の伝達の段階でも機能不全が起こる
文献として表に出る研究はどのようなものか?
広報担当により誇張されるプレスリリース
注目を惹くためにマスメディアがすること
まとめ
第13章 統計学をよりよくするには?
統計学に関わる3つのグループ
研究の現場での統計学の実践を改善する
統計の伝達を改善し誇張をなくす
質の低い実践をチェックする人たち
発表バイアスを見つける方法
統計学による主張や記事を評価する
統計学的証拠に基づく主張への10の問い
データ倫理はより重要になるだろう
優れた統計科学の例――総選挙の出口調査
まとめ
第14章 おわりに
効率的な統計実務のための10箇条
謝辞
用語集
原注
著者紹介
デイヴィッド・シュピーゲルハルター(David Spiegelhalter)
ケンブリッジ大学数理科学センターのウィントンリスク・エビデンスコミュニケーションセンター所長。2014年に医学統計学への貢献によりナイトの称号を授与。英国統計学会会長(2017-2018)を務め、2020年に英国統計局の非常勤理事に就任。邦訳されている著書に『もうダメかも:死ぬ確率の統計学』(共著、みすず書房)がある。
訳者紹介
宮本寿代 (みやもと・ひさよ)
お茶の水女子大学大学院理学研究科数学専攻修了。『ニコラ・テスラ 秘密の告白』(ニコラ・テスラ著、成甲書房)、『マスペディア1000』(リチャード・エルウィス著、ディスカヴァー21)、『地球温暖化はなぜ起こるのか』(真鍋淑郎/アンソニー・J・ブロッコリー著、講談社)、『EARTH 図鑑 地球科学の世界』(共訳、東京書籍)、『食品会社が絶対に知られたくない添加物の正体』(リンダ・ボンヴィー/ビル・ボンヴィー著、IMK Books)など理系書の翻訳に従事。