『ニューヨーク市警察の捜査における人種差別の有無のロジスティック回帰分析：導入編』（ちょいみる統計）

2016.9.16

前回はAirbnbの宿泊費を予測する回帰分析の簡単なモデルを構築し、その有用性について書きました。今回も、一般に公開されているオープンデータを用いて統計モデルを構築し、解釈したいと思います。
これから二回にわたり、アメリカ最大の都市ニューヨークの警察捜査における人種差別の有無について、D4DRアナリストの大村が調査し、レポートします。初回の導入編では、アメリカの人種問題の背景などを基に仮説を立て、それを検証するための統計手法を紹介しようと思います。その後、分析編で詳細にデータを分析していきます。

前編　『ニューヨーク市警察の捜査における人種差別の有無のロジスティック回帰分析：導入編』　←今回
後編　『ニューヨーク市警察の捜査における人種差別の有無のロジスティック回帰分析：分析編』

背景

「人種問題」というのは、日本ではあまり馴染みのない話題かもしれません。確かに、日本は基本的に単一民族国家であり、人種的な多様性はそれほどありません。しかし、連日のように報道される、白人警官による黒人射殺事件や、最近起こっている黒人による白人警官射殺事件から見ても分かる通り、人種問題はアメリカでは根深い問題として存在しています。
また、人種問題の核心とも言えるのが、人種差別。基本的にアメリカで存在する人種差別は多数派の白人からそれ以外の人種に対するものです。最近の話で最も分かりやすいのは、アメリカ大統領候補（2016年7月現在）ドナルド・トランプ氏によるメキシコ人差別発言の数々。具体的な内容はここでは割愛しますが、人種差別的な発言を繰り返す候補を実際に支持するアメリカ人が多いことが、アメリカの人種差別の実情を少しばかりは物語っているのではないでしょうか。

問題

アメリカの人種差別の実情や、黒人射殺事件の数々を鑑みれば、誰もが「警察は黒人に対して人種差別的だ」と考えるのではないでしょうか。しかし、注意すべきなのは、これらは見聞きしたニュースや自らの経験による推察や主観にしか過ぎないということです。もしかしたら、報道機関によるバイアスが存在し、意図的に白人警官による黒人への暴行事件をピックアップしてテレビに流しているのかもしれません（あくまで可能性としての話です）。
しかし、警察の全体像を見渡して、不当な権力行使や身体検査、または暴力があったかどうかは明確には知られていません。したがって、本ブログでは、統計的アプローチによって、ニューヨーク市警察の捜査における人種差別の有無について調べていこうと思います。

仮説

今回の問題である「警察による人種差別の有無」に関して、背景・問題を基に仮説を立てると、次のようになります。

警察捜査には人種的なバイアスがかかっている。

また、この仮説から、次の三つの予測を立てます：

ニューヨーク市の黒人は白人に比べ、

警察官に職務質問をされやすい
身体検査されやすい
物理的な権力行使をされやすい（例：壁に押し付けられて拘束されるなど）

手法

以上の仮説および予測を、主にロジスティック回帰分析を用いて検証します。
用いるデータは、ニューヨーク市警察が公開している、ニューヨーク市内における、職務質問に関するデータである「2015 Stop, Question, and Frisk Data」です。このオープンデータには、容疑者の身体的特徴（人種、身長、体重など）、職務質問場所、質問理由、権力行使の有無、身体検査の有無、逮捕の有無、などの情報が記されています。なお、このデータを扱う上では一つ注意が必要です。それは、このデータセットは、容疑者を拘束した警察官による自己申告によってできている点です。データの信頼性に問題があるとは言いませんが、このデータを分析・解釈する際には注意を払うべきと考えます。
ロジスティック回帰分析によって、黒人の方が白人より身体検査されやすいか（frisk）、そして物理的に権力行使されやすいか（physical force）を調べます（具体的なモデルの説明は次回の分析編で詳しく取り上げます）。

ロジスティック回帰分析とは

ここでは、ロジスティック回帰分析とは何かについて少し説明したいと思います。基本的な考え方は線形回帰分析などと同じで、目的変数を、説明変数から予測することです。
ロジスティック回帰分析は、主に目的変数が０か１かの場合に役立ちます。例えば、目的変数が「購入したかどうか」だとすると、顧客がある商品を買ったか（買う＝１）買わなかったか（買わない＝０）の二択となります。対して、線形回帰分析は目的変数が連続的な時に約に立つため、目的変数が０か１かではうまくデータを捉えることができません。
モデル式は以下のようになります。
Y= 1/(1+ e^(-(b_1 x_1 + b_2 x_2+ b_3 x_3+⋯+ b_n x_n)) )
Yを目的変数とし、xを説明変数とします。数学的な説明はここでは省略しますが、回帰分析という意味ではロジスティック回帰分析と線形回帰分析は同類であり、使う目的は似ています。