【初心者用】機械学習ライブラリPyCaretで回帰テスト【Python】｜工場プログラマーのモダン開発プラクティス

この記事はこんな人におすすめ

○PyCaretを試してみたい方
○回帰モデルの機械学習の勉強をしている方
○チュートリアルとは違うRegressionの例を探してる方

どうもこんにちは、コンです。
今回はTwitterなどでも少し話題になっている機械学習ライブラリ、PyCaretについて解説したいと思います。

PyCaretは、scikit-learn、XGBoost、LightGBM、CatBoost、spaCy、Opuna、Hyperopt、Ray など、いくつかの機械学習ライブラリをセットにしたライブラリだそうで、数行のコードでモデルの比較や、前処理を行えるそうです。

ただ、ニューラルネットワーク系はまだ実装されてなさそう。

個人的に自動モデル選択は興味があったので
Pycaretを使ってxsin(x)関数の回帰問題を解いてみたいと思います。

お題
PyCaretの実装
おわりに

PyCaretについては日経ソフトウェアさんでも扱っています。

リンク

お題

PyCaretの公式サイトには保険のデータについて
年齢、性別、bmiなどのデータから保険料を出力する回帰モデルのチュートリアルが書かれています。

今回はそれとは少し違い、下記のようなy=xsin(x)関数にノイズを加えたデータ点80個から
PyCaretでモデルを作って、モデルがどうなっているかを見てみたいと思います。

PyCaretの実装

データ作成

PyCaretは基本的にPandasのデータフレームに対応している機械学習ライブラリなので
今回の予想お題であるxsin(x)+noiseのデータ作成もNumpyで作成しPandasのデータフレームに収納します。

下記はデータ作成用のコード。

import numpy as np
import random
import matplotlib.pyplot as plt
import pandas as pd

#予測する関数
def test_function(x):
    y = x*np.sin(x)
    return y

#機械学習用データ作成
def dataset_maker(train_n):
    #訓練データの生成
    np.random.seed(seed=16)
    x_train = np.random.rand(1, train_n)*10
    noise_train = np.random.rand(1, train_n)-0.5
    y_train = test_function(x_train)+noise_train

    return x_train, y_train

def main():
 
    x_train, y_train = dataset_maker(100)
    train_data=pd.DataFrame(
        data={'x_train': x_train.flatten(), 
          'y_train': y_train.flatten()}
    )

if __name__ == '__main__':
    main()

PyCaretによるモデル比較

PyCaretはsetupとcompare_modelsのみの記述で18種類の機械学習のモデルを評価してくれます。

先ほどのプログラムのimportとmain()/の部分に追記して実行していきます。

import numpy as np
import random
import matplotlib.pyplot as plt
import pandas as pd
from pycaret.regression import *

予測する関数
def test_function(x):
    y = x*np.sin(x)
    return y

#機械学習用データ作成
def dataset_maker(train_n):
    #訓練データの生成
    np.random.seed(seed=16)
    x_train = np.random.rand(1, train_n)*10
    noise_train = np.random.rand(1, train_n)-0.5
    y_train = test_function(x_train)+noise_train

    return x_train, y_train


def main():
    x_train, y_train = dataset_maker(100) 
    train_data=pd.DataFrame(
        data={'x_train': x_train.flatten(), 
          'y_train': y_train.flatten()}
    )
        
    s = setup(data=train_data, target = 'y_train', train_size=0.8)
    best = compare_models()

if __name__ == '__main__':
    main()

上記を実行すると、上から順に指標の良いモデルが与えられる。

どうやらExtra Trees Regressorが良い性能らしい。
大変申し訳ないのですが、決定木のアルゴリズムの1種だよ。というくらいしか知らない。。。
また今度勉強しよ。

回帰モデルをプロットしてみる

Extra Trees Regressorが1番よさそうだとわかったので、xsin(x)と共にプロットしてみて
どれくらい予想できているのか可視化してみます。

今回はLightGBMと線形回帰についても可視化してみて、性能の違いを確認してみました。

また上で説明したコードに、可視化プログラムをmain()関数に追記します。
（これで今日のコード記入は終わり)

import numpy as np
import random
import matplotlib.pyplot as plt
import pandas as pd
from pycaret.regression import *

#予測する関数
def test_function(x):
    y = x*np.sin(x)
    return y

#機械学習用データ作成
def dataset_maker(train_n):
    #訓練データの生成
    np.random.seed(seed=16)
    x_train = np.random.rand(1, train_n)*10
    noise_train = np.random.rand(1, train_n)-0.5
    y_train = test_function(x_train)+noise_train

    return x_train, y_train


def main():
    #データ生成
    x_train, y_train = dataset_maker(100)
    train_data=pd.DataFrame(
        data={'x_train': x_train.flatten(), 
          'y_train': y_train.flatten()}
    )

    #モデル比較
    s = setup(data=train_data, target = 'y_train', train_size=0.8)
    best = compare_models()
    

    x = np.linspace(0, 10, 500)
    y = test_function(x)
    #作成した回帰モデルをプロットする。
    plot_data=pd.DataFrame(
        data={'x_train': x, 
          'y_train': y}
    )

    predictions = predict_model(best, data=plot_data)
    predictions.rename(columns={'prediction_label': 'Best_function'}, inplace=True)

    #lightgbm
    lightgbm = create_model('lightgbm')
    predictions_lightgbm = predict_model(lightgbm, data=plot_data)
    predictions_lightgbm.rename(columns={'prediction_label': 'Lightgbm'}, inplace=True)
    
    #線形回帰
    lr = create_model('lr')
    predictions_lr = predict_model(lr, data=plot_data)
    predictions_lr.rename(columns={'prediction_label': 'Linear Regression'}, inplace=True)

    #pandasのフレームを結合
    df1=pd.merge(predictions, predictions_lightgbm, how='right')
    df2=pd.merge(df1, predictions_lr, how='right')
    df2.rename(columns={'y_train': 'xsin(x)'}, inplace=True)
    fig, ax = plt.subplots()
    df2.plot(x="x_train", y=['xsin(x)', 'Best_function','Lightgbm','Linear Regression'], ax=ax)  
    ax.scatter(x_train, y_train, label='train data')
    ax.set_xlabel("x")
    ax.set_ylabel("y")
    plt.show()
    plt.close()

if __name__ == '__main__':
    main()

今回のコードで個人的に難しかったのがPandasのデータフレームの取り扱いでした。
全然慣れていなかったため、列の名前を何度もrenameしております。
（読みにくくて、ごめんなさい。。。）

このコードを実行すると下図のように、xsin(x)関数と訓練に使用したデータ、Best function(Extra Trees Regressor)、LightGBM、線形回帰の回帰モデルのプロットが出力されます。