Instagramの投稿数を使用して観光客数を予測してみる  〜インサイト発見だけではない!Instagramデータの活用可能性を見い出す〜


以前の記事(「顧客の“感動体験”がWEBサイトを強くする!!」)を書いたあとに、記事で使用した五島列島のInstagramデータを用いて、観光客数を予測するという試みを行ってみました。最近ではIoTやSNSなどから得られるオルタナティブデータをAIなどにインプットし、様々な予測に使用するケースが多くみられています。観光地においても観光客数があらかじめ予測できるようになると、受け入れ側として適切なボリュームで事前準備ができるため、機会損失を含めて様々なロス低減につながります。
そこで、Instagramデータがその一端を担える可能性があるか、という視点で、あえてInstagramデータ用いて五島列島(五島市)の観光客数予測を試みてみました。
(今回は試みとしてインプットデータや手法を恣意的に選定するなど、諸々簡易なものであることをあらかじめご承知おきください)


予測に使用するデータを準備する

Instagram投稿数は季節指数として使用

まずは予測に使用するデータの選定です。記事を書いている時は、手持ちのデータは五島市の観光客数とInstagram投稿数(#五島列島)のみです。月別推移では、両データには強い正の相関(R=0.92)があったため、Instagramデータは先行指標としては使用できませんが、季節変動を示す指数として使用できそうです。
そこで、年ごとに、Instagram投稿数の月別構成比を算出し、前年同月の構成比を季節指数としてインプットすることにしました。


GoogleTrendの検索インタレストを観光客数の先行指標として採用

先行指標としては、GoogleTrendの検索インタレスト(※)を検討してみました。観光客数の先行指標として採用できる条件は、観光客数よりも対象データ(今回はGoogleTrend検索インタレスト)のトレンドが先行していることです。トレンドが先行しているとは、対象データのトレンド増減後の期に、観光客数にも同じような増減が遅れて発生している状態になります。

そこで、観光客数とGoogleTrend検索インタレストそれぞれの月別推移を期をズラしながら相関を確認してみました。すると、観光客数と”1期(1か月)前”のGoogleTrend検索インタレストに正の相関(R=0.59)がみられました。グラフでみると直感的にフィットしているとは言い難いですが、1期ラグをとることでトレンドがおおよそ似ている感じになっています。
ひとまず、GoogleTrendを先行指標として予測に使用してみることにしました。

※GoogleTrendの検索インタレストは指定条件下での検索ボリュームの相対値であり、条件次第で変動してしまうため、実運用では採用できませんが、ここでは試みとして使用しています。また、GoogleTrend検索インタレストのスコアは週単位で出力されるため、本稿では週初めの日付で月を判定し、同じ月の週のスコアを合計して月のスコアとしています。


GoogleTrend検索インタレストである程度のボリューム変化は説明できそうですが、上図のトレンドを見る限り誤差も少なくなさそうでしたので、もう一つインプットを追加することにしました。選定の観点は、GoogleTrendと同じように先行指標かつボリューム変化を説明できるものとして、「前月の観光客数前年比」を採用することにしました。今年の観光客数は前年よりもどれだけ増減するか?を前月の実績で判断するという考えです。


月ごとの観光客数を予測してみる

データの準備が整いましたので、いよいよ五島市の観光客数を予測できるかを試行していきます。
今回使用したデータは次の4点です。参考までに、他にインプットデータとして使用できそうな情報は、気象情報、Twitterの投稿数、WEBサイトのアクセス数などが考えられます。余談ですが、とある商業施設の場合は日経平均やインバウンド客数と相関がみられていました。業種業態によって使えるデータは様々です。

<実施概要>
・目的変数:五島市の観光客数(=予測すること)
・説明変数:以下の3点
 −先行指標1・・・GoogleTrendの検索インタレスト(ラグ1)
 −先行指標2・・・観光客数の前年比(ラグ1)
 −季節指数・・・Instagramの投稿数の月構成比(前年)
・データ期間:2018年2月〜2019年12月(月別データで23か月分※)
・手法:重回帰分析

予測結果の良し悪しは、月ごとの実際の観光客数(観測値)と予測値の相対誤差(±不問)の平均値で評価することにします。

※通常モデリングを行う場合はデータを学習用と検証用に分割しますが、今回は簡易的な試行かつレコード数が少ないこともあり、分割せずに学習も検証も同じデータで実施しています。

先行指標(2種類)だけでは誤差が大きい

最初の試みはInstagramデータを使用しないケースです。
1回目はGoogleTrend検索インタレスト(ラグ1)だけを使用、2回目はGoogleTrend検索インタレスト(ラグ1)+観光客数の前年比(ラグ1)を使用しました。

<月平均相対誤差>
1回目)GoogleTrend検索インタレスト(ラグ1)だけを使用した場合
 =16.5%
2回目)GoogleTrend検索インタレスト(ラグ1)+観光客数の前年比(ラグ1)を使用した場合
 =16.1%


1回目よりも2回目の方が平均相対誤差が0.4改善しました。劇的な改善ではありませんが、予測モデルの精度向上にはこのような小さな積み重ねが大切だと思っています。

Instagramデータ(季節性)で予測精度を高める

最後に3回目として、GoogleTrend検索インタレスト(ラグ1)+Instagramデータをインプットした結果です。Instagramデータは前年同月の”投稿数の月構成比”を季節指数として使用しました。

<月平均相対誤差>
3回目)GoogleTrend検索インタレスト(ラグ1)+Instagram投稿数(季節指数)を使用した場合
 =6.5%

前の1回目、2回目と比較して、Instagram投稿数を季節指数としてインプットすることで、平均相対誤差(6.5%※)が大きく改善しました。観光地の場合、観光客数の増減には季節性があるため季節要素を加味することが基本であることを再認識しました。

※ただし、この第3回目のケースだけGoogleTrend検索インタレスト(ラグ1)のP値が0.177と上昇してしまいました。


いかがでしたでしょうか。ここではあえてInstagramデータを使用して簡易な予測を試みてみましたが、Instagramデータを季節指数として採用したことで、月ごとの観光客数の予測精度を向上させることができました。以前ファミリーレストランチェーンの記事を書いた際にも、一部のファミリーレストランで前月のInstagram投稿数増減率と当月の売上金額増減率に正の相関(R=0.79)がみられ、Instagram投稿数が売上の先行指標として活用できる可能性が窺えました。

昨今はオルタナティブデータが様々な分野で活用されていますが、業種業界あるいは商材によっては、Instagramの投稿数もそのうちの一つとして、インサイト発見だけではなく、需要予測、あるいはSNS施策の成果の可視化などにも活用できる可能性が垣間見れました。


InstagramをはじめとするSNSデータ収集・分析のご要望、顧客データのビジネス活用のご相談がありましたらお気軽に問合せください。また、本記事に関連する前回記事(「顧客の“感動体験”がWEBサイトを強くする!!」)の詳細資料をご覧になりたい方は以下よりダウンロードください。

D4DRでは、今後も情報発信、リサーチ・コンサルティングを通じて、企業・ブランドのマーケティング強化に向けた支援を行って参ります。

(本記事についての補足)
本記事冒頭ならびに記事内でも触れましたが、本件はInstagramデータの活用可能性を探るための簡易的な分析のため、採用したデータや手法、結果は、切り口や考え方の参考としてご覧ください。



本記事に関連する資料のダウンロードはこちらから。

関連記事

関連サービス

記事タグ