というわけでkaggleに参加してましたー。
結果はメダルにかすりもせず。数千番代という残念な結果に終わりました。うーん、道のりは長い。。
そこで備忘録的に今回のコンペをまとめていこうかと思います。
ICRというコンペに出ていました。患者の様々な特徴量から病気かどうかを判定する分類問題でした。参加動機としては
- メダルが授与されること(これを目標にしているのでここはマスト)
- 分類問題であること(単にやったことがあったからとっつきやすかった)
- 専門すぎること(医療系なので自分が特徴量知らなくても周りも知らないだろうという)
こんなところだったと思います。
やったこと
で自分がやったこととしては
- 結構Discussionは読んだ。
- ハイパーパラメータは自分で調整してみた。
が大きかったかなと思います。どちらも勉強になったので得られたものはたくさんありました。
わかったこと
次にわかったこととしては
- Discussionは参考にはなるが、上っ面だけパクっても順位は大きく上がらない
当たり前ですが、ちゃんと腹落ちしてわかりました。順位が高い人のコードも見て反省していますが、メダルを取る人はやっぱりちゃんと目の前のデータに向き合ってる。私はといえば「こんな手法あったのか!」という他の人のアウトプットに目が眩んでいる状態でした。これは分析とは言わないです。正解はないですが、Discussionとの向き合い方は調整する必要があるなと感じました。
- 分析はデータ理解が7割
これも先ほどの話と重複しますが、データとの向き合い方は大切だなと。一般のデータサイエンスの世界ではデータ理解が7割なんて言われてるのを耳にしますが、これはkaggleでもそうかなと思います。私は今回環境設定、(ハイパラ含む)モデリングばかりやっていてデータ理解が足りませんでした。
課題
データ理解