以下のnoteがとても参考になったのでメモ。
https://www.kaggle.com/code/keitashimizu21/en-ja-icr-14th-solution#Data-Understanding
ざっくりと流れをみると
1. データ読み込み
2. 評価関数の定義
3. データ理解
- 欠損、データ型
- ヒートマップ
4. データクリーニング
- null埋める
- カテゴリーの処理
5. ベースラインのモデリング
- とりあえず全てぶち込む
6. 仮説たて
- もう一つのデータを入れればいいのでは?
- 分布を確認する
- 特徴量の重要度の可視化
- 評価において低い行を確認する
みたいな感じ。あっさりやっているけれど手順は綺麗でかつシンプル。真似したい。