エビデンスで教育を考えた

頭が良くなる科学論文を紹介していきます。お勧め商品は楽天ルームで!https://room.rakuten.co.jp/room_12b7a40f6d/items

特徴量エンジニアリングのメモ。

 今回は意外に語られていない(?)テストデータの分割についてのメモです。

「特徴量エンジニアリングは終わりがないし、初心者なのでとりあえずモデルに入れてみたい!」

とは思うものの、モデルにどうやって入れれば良いかがわかりませんでした。

どのタイミングでするの?

どういうわけ方するの?

みたいなところが最初はさっぱりでして。。

そこで参考記事を漁ってみたところ、以下の記事が見やすかったので参考にしていました。

https://pythondatascience.plavox.info/scikit-learn/トレーニングデータとテストデータ(https://pythondatascience.plavox.info/scikit-learn/%E3%83%88%E3%83%AC%E3%83%BC%E3%83%8B%E3%83%B3%E3%82%B0%E3%83%87%E3%83%BC%E3%82%BF%E3%81%A8%E3%83%86%E3%82%B9%E3%83%88%E3%83%87%E3%83%BC%E3%82%BF)

これによると、テストデータ/訓練データの分割手順としては

1データセットを説明変数Xと目的変数Yに分割(ここでdf_xとdf_yができる)

2さらにトレーニングデータ、テストデータに分割(**x_train, x_test, y_train, y_testができる)

というのを踏む感じ。

1では列の分割が必要になり(参考https://pythondatascience.plavox.info/pandas/行・列の抽出(https://pythondatascience.plavox.info/pandas/%E8%A1%8C%E3%83%BB%E5%88%97%E3%81%AE%E6%8A%BD%E5%87%BA))

2ではランダムに分ける技術が必要になります(参考https://pythondatascience.plavox.info/scikit-learn/トレーニングデータとテストデータ(https://pythondatascience.plavox.info/scikit-learn/%E3%83%88%E3%83%AC%E3%83%BC%E3%83%8B%E3%83%B3%E3%82%B0%E3%83%87%E3%83%BC%E3%82%BF%E3%81%A8%E3%83%86%E3%82%B9%E3%83%88%E3%83%87%E3%83%BC%E3%82%BF))