時系列分析 〜施策の定量評価〜(ちょいみる分析)

ビッグデータ時代の到来と呼ばれて久しい昨今、世の中にはこれまで以上に、大量かつ多様なデータが蓄積されるようになっています。例えば、Google Analytics(以下GA)のアクセスログデータの場合、時系列データや関係データのような、異なるデータ構造を考えることができるため、多様な観点から分析を行うことができるようになっています。一方で、デジタル化が進み、様々な行動データが取得できる状況下で、データ分析を行うことは必要だと感じているが、何から手を付ければよいか、何の役に立つか、どういう場合に適用すれば良いか、という声が頻繁に聞かれます。

そこで、本稿では、GAのアクセスログデータを統計分析ソフト「R」で分析した統計的な分析手法や事例を中心にご紹介します。また、GAと「R」の分析結果とBIツールである「Tableau」を組み合わせ、ビジュアライズ化した表現も一部紹介したいと思います。
今回は、「時系列分析」をテーマとして掲げ、施策効果を推定するための統計的な分析手法をご紹介します。少しでも業務のお役に立てれば幸いです。

時系列分析について

まず、時系列分析とは、過去のデータから未来を予測するという手法です。例えば、過去の長期間にわたるデータが存在するとき、未来のデータを予測することができれば 、需要予測やWebマーケティングにおける施策計画の立案が容易になります。
また、今回扱う時系列データとは、ある一定の間隔で測定されたデータ結果のかたまりで、例えば、季節性などを含んだ時間の経過に沿って記録されたデータである日別ホームページのセッション数や 例えば暑い日にはよく売れ寒い日には販売量が落ちる飲料の売上高などが該当します。時系列データを分析することで、長期増加や長期減少、季節性を考慮したデータの変動を予想することができます。

今回は、施策(広告など)を打った成果がPVなどの基本指標に直接寄与しやすいメディアサイトを主眼に置き時系列分析を行ってみます。
メディアサイトの目標であるPV数をあげるという目標を達成する為には、Web上における訪問ユーザーの行動を分析することが必要です。分析することで、改善すべき点や目標とすべき指標が明らかとなります。
メディアサイトの売上獲得には、「メディアサイトの売上=PV×PVあたりの売上(単価)」という計算式が一般的には考えられますが、打ち手として、集客力向上するには、CMやシーズン毎の割引セールキャンペーンなどのLP誘導やSEOなどの施策が想定されます。
しかし、これらの施策を行うにも、施策効果を事前に把握する術がなければ、社内調整などの関係で実施すら難しくなります。そこで、時系列分析を行うことによって、施策前の周期的な時系列の変化に対し、施策後を予測し、施策前/後の差分を把握することができます。

分析例

今回は、弊社が用意した、メディアサイトの日別PV数のサンプルデータを使って、時系列分析を行ってみます。図の横軸は観測開始からの経過日、縦軸はPV数を表します。全観測日数を100日とし、観測開始から75日目のところで施策(広告出稿など)が行われたものとして、赤線を引いてあります。

まず、図の上段では、実線が実際の観測値、点線が推定値を表します。また、青色の部分は、95%信頼区間(※)を表します。実線を見ると、観測値は7日ごとに周期的な値をとっていることがわかります。これは、時系列データの典型的な特徴であり、通常の回帰による分析は困難であると言えます。また、施策日以降は、PV数が実際に増加している一方で、点線の推定値は、施策前のデータに従って、周期的に推移していることが分かります。

(図の上段)

次に、図の中段に注目します。これは、点線は観測値と推定値の差、つまり、施策効果の定量的な値を示しています。施策後は継続してPV数が高い状態にあり、しばらく効果が持続していると考えられます。

(図の中段)

このように、定量的な施策評価を行うことで、その効果をよりイメージしやすくなると思います。CMで起用したタレントごとにダミーを作成し、どのタレントが宣伝効果があるか、などを把握することも可能です。
ただし、時系列データにも様々な種類がある為、案件の要件ごとに、どんなことがしたいか、どの手法を用いるか、どのようなデータ構造をしているかなどを考える必要があり、その見極めが重要になってきます。

上記の時系列データの時系列分析とは別手法として、データ予測の代表的な手法の回帰分析(『ちょいみる統計 回帰分析「Airbnbのオープンデータから宿泊費を予測」』)という手法があります。回帰分析は、説明変数(原因)と目的変数(結果)が独立である場合に、その関係を求めることで、データを推定する手法です。しかし、時系列データには相関があるため、これらに対して回帰分析を行っても、その関係性を捉えることは難しいです。このような場合には、時系列データの構造を意識する必要があると言えます。

Tableauによる可視化

上述の分析は、統計分析ソフト「R」を使い、分析から表現までを示したものですが、表現の部分に「Tableau」を組み合わせ可視化を行いました。「Tableau」は、弊社のブログ『BtoBマーケティング支援 (Google Analytics × tableau連携) ~リードの可視化~』でも紹介しました通り、「R」の表現よりもデータをビジュアライズすることにおいては優位性があり、効率的に可視化が可能となります。今回の分析例では、簡単なアウトプットですが、他のグラフとの比較や、より複雑なグラフを用いる場合には、力強いツールになります。

このように、時系列分析によって、時間の情報を持つデータから周期パターンを把握し、ある程度の精度を担保した予測を立てることが可能となります。

※信頼区間について

ワード自体はよく耳にしますが、内容を捉えるのに誤解を生みやすい概念の為、整理してご説明します。
例えば、サイコロを例にして考えてみます。まず、サイコロの出た目の平均を計算すると、(1+2+3+4+5+6)/6=3.5です。これを、母平均と言います。しかし、母平均は一般的に分からないことが多いため、実際にサイコロを振る(いくつかデータを抽出する)ことで、推定することを考えます。例えば、サイコロを5回振って、実際の出た目に基づいて平均を求めたものを標本平均といい、先ほどの分析結果の点線に相当します。ここで、(3,5,5,6,2)のような目が出た場合、標本平均は4.2ですが、この値にはどのくらいばらつきがあるのでしょうか。このとき、標本に基づいて、母平均が存在すると考えられる区間を推定することが可能で、その区間を信頼区間と呼びます。サイコロを5回振って母平均の95%信頼区間を推定する(計算方法は割愛します)、という試行を100回行った場合、その区間内に母平均が存在するのは確率的に95回となります。もちろん、サイコロをたくさん振るほど(データの数が多いほど)、標本平均のばらつきは小さくなるので,信頼区間の幅も小さくなります。また、信頼区間における95%のような確率は信頼係数と呼び、信頼係数をどの値に設定するかは状況に応じて変えるべきです。

(引用: 統計WEBより)

関連サービス

記事タグ