2026年1月2日

統計学まなびはじめ(『人文学のための計量分析入門』『基礎から始める統計学』)

今後の研究に統計学的な手法を取り入れたいと思い、勉強をスタートしました。

クレール・ルメルシエ、クレール・ザルク[著] 長野壮一[訳]『人文学のための計量分析入門―歴史を数量化する―』(人文書院 2025年)

内容の忠実な要約とはなっていませんが、自分自身の申し送りとして以下にまとめました。


ーーー

・「しばしば」「一般的に」などの歴史叙述は「疑似定性的な手法」であり、単なる意見の表面で終わってしまう。

・歴史研究に有益な数量的手法を紹介。数学的原理、ソフトウェアの操作方法には触れず、使用する前の目的、注意点、落とし穴などに重点を置いた。

・誤差の許容範囲を決めるのは標本数の大きさ。60,000人のうち1,000人でも、25,000人のうち1,000人でも、4億5000万人のうち1,000人でも同じ。母集団における割合は関係ない。

・1,000人の標本であれば、誤差は通常許容される範囲にとどまる。標本の20%にある特性が認められた場合、母集団においての割合が15~25%の間に入ることは「ほぼ確実」である。

・しかし、歴史研究において1,000件の標本を用意することは難しい(他の標本と比較しようとすると2,000件)。歴史研究者は1つ1つの標本(事例)の多様な側面を関心を持つからだ。

・理に適った妥協点は300件の標本。300件中に見られる20%の特性は、母集団においても15~25%の間に収まる。

・事例収集の留意事項
①標本抽出の頻度より標本の大きさ(標本数)を重視する。
②小数点以下の記述は不要。それより有意差を記述。
③標本数は現実的な妥協点が300件で、1000件まで増やす分には誤差を減らすという点で価値があるが、それ以上は微小な誤差の修正となるので(母集団がいくつであっても)ほとんど意義がない。
④これらの標本は、無作為抽出されたものであること。

・無作為抽出は、表計算ソフトでRAND関数を用いればよい。特定の順番ごとに抽出するなどの手動抽出は偏りを生む危険が拭えない。

・百分率を表示する際の留意事項
①母集団の総数をNで示すこと。N>100の場合、小数点以下は不要。N>1000の場合、小数点は一桁で十分。
②百分率は比率であり、単純に足したり引いたりできない。10%から20%に増えた場合、増加率は100%でパーセンテージポイントが10ポイントである。

・分割表(ピボットテーブル)は、2つの変数(人物の年齢、書籍の長さ、訪問先の場所などの情報)に関係があるか、関係がないかを示すに有効。

・カイ二乗検定を行うと、分割表で注目した変数同士が、事例数の小ささゆえに偶然生じたのか、実際に関係性があるのかを、合理性に基づいた確信をもって述べることができる。

・オンライン上でカイ二乗検定を行える時代。百分率ではなく、事例の数を分割表に入力すると検定結果が出力される。p値(2つの変数が独立=無関係である確率)が5%未満であれば、慣例的に相関関係があるとみなされる。

・分割表とカイ二乗検定は、歴史学的な論証に強力な役割を果たすため、歴史研究者が学ぶべき最も重要な道具である。

・歴史研究者にとってデータ入力の時間は退屈ではなく、民俗学者や社会学者にとってのフィールドワークに比するものと言える。

・データ入力の十戒
①最初の一行は変数の見出しのみに使用。
②識別子に一列を使用。
③資料の表記にできるかぎり沿って入力。
④資料の典拠を示す。
⑤欠損データもデータとして残す。
⑥1つの情報に見えても、その情報を可能な限り多くの列に分割。(例)「姓名」→「姓」「名」など
⑦年月日はソフトウェアの日付形式を使わず、「年」「月」「日」の3列で入力。
⑧時間軸で情報が変容する場合、「何が起こったか」「いつ始まったか」「いつ終わったか」の3列以上で入力するエピソード形式が実用的。
⑨表計算ソフトでできる機能を使いこなせるようにしておく。
⑩データは頻繁に保存。

・数件から数十件しかない小さな母集団に対しては、論理学と集合論に立脚した質的比較分析(QCA)でアプローチする。

・少ない標本で大量の変数を取り扱う場合は因子分析でアプローチする。2つ、3つ程度の変数であれば因子分析は不要で、分割表とカイ二乗検定で十分。

・読みとりやすい図表を意識する。問題となりやすいのが円グラフ。人間は面を比較することが得意でなく、棒グラフで良い場合も多い。立体の円グラフなどは、遠近感による歪みで分かりにくくなるので、より悪い。男性の10%は色を識別することがうまくできないという研究もあるので、色付けでの識別も避けるべき。単純なほどよい。

・単純さという点で、スモールマルチプルは今なお有用。単純にグラフを連続して配置するだけなので、視覚的な比較が容易。

・棒グラフは、垂直方向より水平方向に表示が推奨。見出しが読み取りやすいため。1本の棒グラフに十数色の情報を詰め込むより、1つ1つの情報を棒グラフとして可視化して並べる方が理解しやすい。

・テキスト分析ソフトの使用は、主観や見落としを防止する。二つの用語が頻繁に近接すること、代名詞や前置詞の使い方、語彙の豊富さや貧弱さ、テキスト間の距離など、人が自明としてしまい読めていない傾向を浮かび上がらせる。そのためにはコーパスの構築が不可欠で、そのコーパスはソフトウェアの有意性検定にかける。

・数量的手法には過失や改竄の危険性が伴うが、数量的手法をとるということは、選択や手順を明確にしないといけない。仮説を明示し、その限界も考慮されないといけない。これらの前提が明示されるので、他の研究者がアプローチできるという意味で利点である。歴史学における直感や創造性を制限するものではなく、むしろ刺激することにつながると考えている。

ーーー


一読して得た知見をメモしましたが、前提知識が足らず、主に後半部は消化不良となりました。最低限、歴史学に携わるものとしてカイ二乗検定を扱えるようになりたいと思いますが、さらなる基礎学習の必要を痛感しました。

そこで、統計学の手始めの書を求めて次の本へ移りました。


中原治『基礎から始める統計学』(羊土社 2022年)

しかし、p.9で本書の前提知識が示され、高校数学で学ぶ「確率」「場合の数」「数列」の知識が必要である旨が書いてありました。

あくまで基礎でよいとのことですが、私は高校2年生以降数学を学んでいない人間なので、ここで高校数学の学び直しを迫られました。こうやって、過去に逃げたことのツケをいつか払うことになるわけです。

実際に本書を読み始め、p.35の二項分布の節で数式が増えてきて足踏みしてしまいました。いったんここまでです。


ということで、統計学の前に数学A、数学Bまで立ち戻って学び直しています。テキストを手にしてまだ序盤も序盤ですが、はたしてどこまで理解できるやら。ハラハラしながら1ページずつ自学しています。

遠回りなことをしているように見えるかもしれませんが、最終的にたどりつきたいゴールがあります。そのために必要な知識にしばらく向き合っていきます。


0 件のコメント:

コメントを投稿

記事にコメントができます。または、本サイトのお問い合わせフォームからもメッセージを送信できます。