エビデンスで教育を考えた

頭が良くなる科学論文を紹介していきます。お勧め商品は楽天ルームで!https://room.rakuten.co.jp/room_12b7a40f6d/items

加筆予定。データ解釈学の要約

 「データ解釈学」という本が面白いんですが、ちょっとずつ読んでいるのでメモしていきます。

というのもデータ解釈や理解の力は

・そもそも分析前後で大切。

・しかしその能力は定量化しにくく、また伸ばしづらい

・そして以外と(?)緊急性がない

という性質がありまして、つい私ものんびり読んでしまうんですよねぇ。。(そして忘れる)

 なので自戒を込めて少しずつ書いていきます。

誤差について

 真の値と測定した値の差のことを誤差と言います。この誤差を減らしていくのが測定の目的。
この誤差には変化するランダム誤差と、変化しないバイアスとがあります。体重という真の値を図ろうとした時に、毎回ちょっと出るのがランダム誤差、服の重さがバイアスとなります。誤差を小さくしていく場合、バイアスが大きい方が問題で、何から生じているのか、どうやって取り除くのかを特定するのが大切です。

データ分析のフロー

 データ分析のフローとしては

1データの観測

2前処理

3モデリング

4評価/解釈

となっています。これを少しづつみていきましょう。

1データの観測
 生データを数字の羅列として眺めていても、何も見えません。そこで大事になってくるのが量的データを可視化することです。この可視化は主に


・1つのデータをそのまま見る

・複数のデータを比べる


と大別できます。このように大別した場合


・1つのデータをそのまま見る
→ストリッププロット、スウォームプロット、ヒストグラム、棒グラフ、箱ひげ図とか

・複数のデータを比べる
→箱ひげ図、相関図とか


で可視化するのがベター。どれを選ぶのかは割と好み。pythonでのコードは以下にまとめられているのでオススメです。
https://qiita.com/4m1t0/items/76b0033edb545a78cef5

2前処理
加筆中。

3モデリング
加筆中。

4評価/解釈
加筆中。

またどの工程でも言えるのが、


1つ1つの処理で正しく行えているかを確認すること

各処理には名前と処理内容を書いて管理しておくこと


が大切。そのために、処理は統一して複数の処理は一度に行わないようにすること。