【Python機械学習】Prophetを用いて株価予測をやってみました(データサイエンス)

データサイエンス

2022.04.21 2021.12.10

1 はじめに
2 完成物
3 Prophetsとは？
4 実際に株価予測をしてみる
5 モデルの評価
6 データサイエンスの記事
7 データサイエンスを勉強したい方に
8 おわりに

はじめに
完成物
Prophetsとは？
実際に株価予測をしてみる
モデルの評価
データサイエンスの記事
データサイエンスを勉強したい方に
おわりに

はじめに

どーも、学生エンジニアのゆうき(@engineerblog_Yu)です。

プログラミング初心者だけど株価予測をしてみたいなんて思っている方はいませんか？

今回はProphetというPythonライブラリを用いて世界一簡単に株価予測をやってみました。

今回の記事を特に読んで欲しい方は

株式投資に興味がある人
機械学習に興味がある人
データサイエンスに興味がある人

となっています。

ねこすけ

かぶってなににゃ？

コードを見るのがめんどくさいという方は、なんとなくプログラミングでこういう株価予測ができるということだけでも知っていただけたらなと思います。

完成物

今回はこちらのような株価予測をしていこうと思います。

黒い点が実際の値で青い線が予測される値です。

今回用いるのはアップル社の株価のデータで、csv形式で2019年から2021年までの2年間のデータを持ってきました。

動作環境はJypyter Notebookです。

csvはアップルの公式サイトからダウンロードできるのでやってみたい方はこちらからどうぞ。

csvはこんな感じです。

それではやっていきましょう。

一応予備知識としてこちらもどうぞ。

【Python】データを扱うときの最強の武器、Pandasとは？【初心者向けに文法解説】

Python自動化やデータ分析に興味がある方向けによく用いられているPandasを紹介しました。初心者向けの文法解説付きです。Pythonで業務自動化やデータ分析をしたい方は必見です。

まずは必要なライブラリをインポートしていきます。

日付の欄が日本語が入っていたり時系列が逆になっていたりと見づらいので前処理をしていきます。

import math
import numpy as np
import pandas as pd
from prophet import Prophet
import matplotlib.pyplot as plt

# csvファイルの読み込み
df = pd.read_csv('AAPL 過去データ.csv')

# データの前処理
df = df.iloc[::-1]
df.index = range(len(df))

# 日付の整形
for i in df:
    df['日付け'] = pd.to_datetime(df['日付け'], format='%Y年%m月%d日')

それではまずはこちらのコードでグラフを表示してみます。

plt.figure(figsize=(18, 10))
plt.xticks([0,100,200,300,400,500],[df['日付け'][0],df['日付け'][100],df['日付け'][200],df['日付け'][300],df['日付け'][400],df['日付け'][500]])
plt.plot(df.iloc[:,1:2],label='end price')
plt.plot(df.iloc[:,2:3],label='start price')
plt.plot(df.iloc[:,3:4],label='high price')
plt.plot(df.iloc[:,4:5],label='low price')
plt.xlabel('year')
plt.ylabel('stock price')
plt.legend(loc='best')

こちらが2019年から2021年までの実際のアップル社の株価変動です。

それではProphetを使う準備をしていきましょう。

Prophetsとは？

それではまずは株価予測を理解するためには不可欠なProphetsとはどのようなモデルなのかについて説明していこうと思います。(難しいと思った方は飛ばしていただいても結構です。)

(私の研究の方から抜粋してきているので語調が変わりますが気にしないでください。)

後の結果を先に載せますが一つ目のグラフがg(t)の項で二つ目のグラフがs(t)の項です。

この二つのグラフを足し合わせることで株価を予測します。

次に各項をどのような数式で表しているかについての記述です。

難しそうに書いてありますがg(t)で折れ線を表していてs(t)で周期的な波を表しているという認識で大丈夫かと思います。

それではProphetを使って実際に株価予測をしていきましょう。

実際に株価予測をしてみる

Prophetでは日付のデータを「ds」,予測するデータを「y」としなければならない決まりがあります。

まずはその形式に変えてあげましょう。(今回はend priceのみを予測していきます。)

# Prophetを用いるためのデータの整形
data_train = df.iloc[:,0:2]
data_train.columns = ['ds','y']
#yの値が大きいサンプルの誤差を小さくするために対数変換する
data_train['y'] = np.log(data_train['y'])

Pythonを用いて株やFXの自動売買トレードシステムを作るメリットと方法を解説しました。株やFXを勉強している方から、プログラミングを勉強している方まで知っておいた方がいい内容です。

こちらはProphetオブジェクトの作成です。

傾向変化点の数を指定することでトレンドの折れ線が何回曲がるかを決めることができます。

また年、週、日単位で変動を考慮するか指定します。

今回は年だけを考慮してやっていこうと思います。

model = Prophet(
    growth='linear', # 傾向変動の関数．非線形は'logistic'
    yearly_seasonality = True, # 年次の季節変動を考慮有無
    weekly_seasonality = False, # 週次の季節変動を考慮有無
    daily_seasonality = False, # 日次の季節変動を考慮有無
    changepoint_range = 0.80, # 傾向変化点の候補の幅で先頭からの割合。
    n_changepoints = 15, # 傾向変化点の数
    holidays = None,#休日のデータはないのでNone
)
model.fit(data_train)

それでは予測した結果をプロットしていきましょう。

periodsに183を引数として渡すことでこれから半年間の株価予測をしていきます。

future = model.make_future_dataframe(periods=183, freq='M')
pred = model.predict(future)
pred = model.plot(pred)

冒頭にあるグラフが表示されました。

黒くプロットされているのは実際の訓練用データです。(end price)

そして青く表示されているのが予測される値で80パーセントの確率で信頼できる範囲が青く表示されています。

またこちらのコードで中身を表示することができます。

fig_components = model.plot_components(pred)

一つ目のグラフがトレンド項で二つ目のグラフが年の周期関数の項です。

たったこれだけのコードで予測分析ができるProphetに感謝ですね。

モデルの評価

それでは実際の2021年1月から2021年7月までのデータをプロットすることでモデルを評価していきましょう。

プロットした結果はこのようになりました。

黒い点が実際のデータです。

実際の予測値とは少し下回っているが(コロナ?)ほとんどのデータが80%信頼区間の中に入っていて、かつ大まかな経済の波は予測できているように見えます。

また誤差を測る指標である平均絶対値誤差(MAE)、平均二乗誤差(MSE)、平均二乗偏差(RMSE)に関してはこのようになりました。

平均で誤差１８ドルの範囲で予想できていることがわかります。

ねこすけ

ほかにもいろんな記事があるにゃ。

データサイエンスの記事

【機械学習】重回帰分析でより良くボストン住宅価格を予測してみよう(初心者向け)

今回はscikit-learnを使って住宅の価格予測を行っていこうと思います。データサイエンスに取り組みたいけど何をやっていいかわからない、、。という方におすすめの記事です。

データサイエンティストに必要なスキルと役に立つ資格４選【勉強法付き】

データサイエンティストになりたい方、データサイエンティストについて興味がある方向けに必要なスキルと資格、勉強法についてまとめました。Python初学者は特に必見です。

【データサイエンス】時系列データをプロットして移動平均線を表示してみよう(Python)

今回はデータサイエンスの入り口として実際の株価データを用いて移動平均線をプロットしていこうと思います。データサイエンス、機械学習などに興味がある方は特に必見です。

データサイエンスを勉強したい方に

最後にデータサイエンスを勉強したい方向けにおすすめの講座を紹介します。

Udemyのこちらのコースです。

こちらのコースではデータサイエンスを0から目指す方向けに

ビジネススキル
大学基礎数学
プログラミングスキル

の三つの全てをまとめてくれています。

とてもわかりやすく特にデータサイエンスに馴染みのない方はこの講座から始めてみるのが良いかと思います。

かなり量が多いコースですので自分が足りないと思う部分、興味がある分野だけでも大丈夫です。

このコースは通常かなり値段が高いのでセール中に買うのが良いと思います。

※Udemyでは月に1回程度90%OFFセールがあります。

当プログラムはリンク期限が切れています

おわりに

今回はProphetを用いた株価予測を解説していきました。

今回はアップル社の株価でしたが他の会社でも株価のデータでなくても何にでも応用することができると思います。

理解するのは少し大変かもしれませんが動かしてみることは簡単にできると思います。

実用的で楽しいプログラミングができるきっかけになれば幸いです。