「データ解釈学」という本が面白いんですが、ちょっとずつ読んでいるのでメモしていきます。
というのもデータ解釈や理解の力は
・そもそも分析前後で大切。
・しかしその能力は定量化しにくく、また伸ばしづらい
・そして以外と(?)緊急性がない
という性質がありまして、つい私ものんびり読んでしまうんですよねぇ。。(そして忘れる)
なので自戒を込めて少しずつ書いていきます。
誤差について
真の値と測定した値の差のことを誤差と言います。この誤差を減らしていくのが測定の目的。
この誤差には変化するランダム誤差と、変化しないバイアスとがあります。体重という真の値を図ろうとした時に、毎回ちょっと出るのがランダム誤差、服の重さがバイアスとなります。誤差を小さくしていく場合、バイアスが大きい方が問題で、何から生じているのか、どうやって取り除くのかを特定するのが大切です。
データ分析のフロー
データ分析のフローとしては
1データの観測
2前処理
3モデリング
4評価/解釈
となっています。これを少しづつみていきましょう。
1データの観測
生データを数字の羅列として眺めていても、何も見えません。そこで大事になってくるのが量的データを可視化することです。この可視化は主に
・1つのデータをそのまま見る
・複数のデータを比べる
と大別できます。このように大別した場合
・1つのデータをそのまま見る
→ストリッププロット、スウォームプロット、ヒストグラム、棒グラフ、箱ひげ図とか
・複数のデータを比べる
→箱ひげ図、相関図とか
で可視化するのがベター。どれを選ぶのかは割と好み。pythonでのコードは以下にまとめられているのでオススメです。
https://qiita.com/4m1t0/items/76b0033edb545a78cef5
2前処理
加筆中。
3モデリング
加筆中。
4評価/解釈
加筆中。
またどの工程でも言えるのが、
・1つ1つの処理で正しく行えているかを確認すること
・各処理には名前と処理内容を書いて管理しておくこと
が大切。そのために、処理は統一して複数の処理は一度に行わないようにすること。