エビデンスで教育を考えた

頭が良くなる科学論文を紹介していきます。お勧め商品は楽天ルームで!https://room.rakuten.co.jp/room_12b7a40f6d/items

データサイエンス

特徴スケーリングの基本: 標準化と正規化の違いと選び方

この記事では、データ分析や機械学習で重要な「特徴スケーリング」の基礎について解説します。特徴スケーリングはデータを整理し、モデルの精度と計算効率を向上させるために不可欠です。標準化と正規化の2つの主要な方法を紹介し、それぞれの適用場面につい…

データサイエンティスト必見!不均衡データの確認と補正方法を徹底解説

データサイエンティストがデータを扱う際に避けて通れない「不均衡データ」について解説します。不均衡データの確認方法から、オーバーサンプリングやアンダーサンプリングなど、データのバランスを改善するための具体的な手法を紹介し、どのようなケースで…

Notionでデータサイエンスコンペのタスク管理を効率化する方法

Notionを使ってデータサイエンスコンペのタスク管理を効率化する方法を紹介します。締切に追われることなく、プロジェクトを成功に導くための具体的な手順を解説しています。ガントチャートを活用して進行状況を視覚的に管理し、リマインダー機能で締切を守…

コンペメモ(sumitできない問題に取り組む)〜AI Mathematical Olympiad - Progress Prize 1④〜

この記事では、Kaggleの環境でインターネット接続がない状況下で必要なパッケージをインストールし、モデルを使用するための具体的な手順を解説します。特に、bitsandbytesパッケージとOpenMathモデルの設定について詳しく説明します。

コンペメモ〜The Learning Agency Lab - PII Data Detection③〜

今日も元気にモデリング。このエラーがまた出た。 AttributeError: module 'numpy' has no attribute 'object'. `np.object` was a deprecated alias for the builtin `object`. To avoid this error in existing code, use `object` by itself. Doing this …

コンペメモ〜The Learning Agency Lab - PII Data Detection②〜

今日の作業は特徴量の生成。まだ先は長い。1. 今日の作業の全体的な進捗度は何点ですか?(「1=非常に不明瞭」から4=「非常に明確」で採点) →2。結局最後まではできなかった。2. 今日の作業の中で、もっとも重要なことを2つ挙げるなら何ですか?→ labels…

AI•データ分析プロジェクトの全ては手元に置いておきたい一品です。

最近読んだ「AI•データ分析プロジェクトの全て」という本が、データサイエンティストのビジネス力に特化して解説した秀逸な一冊でした。ぜひ買ってください。

プロジェクトリーダーの教科書はデータサイエンティストには結構有用な本だと思います。

プロジェクトリーダーの教科書という本がITプロジェクトやデータサイエンティストの仕事にも有用なので簡易的に紹介する記事です。外資系コンサルが教える難題を解決する12ステップ プロジェクトリーダーの教科書作者:中鉢慎かんき出版AmazonPLになったけど…

加筆予定〜MCMCとpystan〜

最近更新が遅れてPVがダダ下がりしてまして。どうせ下がるならMCMCみたいなややマニアックなもの書いていこうということでメモがてら書いていきます。 MCMCの歴史 MCMC (Markov chain Monte Carlo) は、確率分布からサンプリングするための計算手法で、広く…

LDAまとめサイト。

LDAで個人的に良かったサイトまとめました。いや、手抜きじゃないよ笑。 概要 tips-memo.com 原著論文の解説。これでLDAの概要をサクッと把握できる。 さらに深掘り トピックモデルの話 from kogecoo www.slideshare.net LSIとかLDAの前の経緯とかについて書…

エンジニア15年キャリアの人は初心者と比べて何が凄いのか?というメタ分析の話

最近エンジニアやプログラマーはIT業界にお金が流れている関係でそこそこ人気。でも物事が複雑になりすぎて「どんなスキルが必要なの?」とか「どれくらいの習熟が必要なの?」みたいなところまで複雑になっている気がします。データサイエンスなんかもまさ…

無名関数は関数の中に定義すると可読性上がって良いな〜という技術メモ

先輩がlambdaなるものをコードで書いていて「なんじゃこりゃ?」と思って調べました。どうやら無名関数というものらしいです。こちらが簡潔に書いてあって概要は掴めます。qiita.com そのまま引用させていただくと、無名関数だけあって書くのは楽に見えます…

感情分析入門①〜テキストから感情分析することの難しさについて〜

今回はデータサイエンスのエントリです。自然言語処理を勉強し始めたんですが、これが中々奥が深く、ちょこちょことメモがわりに書くことにしました。自然言語処理というのはざっくり言えばテキストをあるルールで分類し、そこから何かしらのインサイトを得…

自然言語処理でLookupErrorした

文書を分割する際にnltkを使用したのですが、まあ案の定うまくいかなかったのでメモ。 from nltk import tokenize train['sentense'] = train['text(カラム名)'].apply(lambda x: tokenize.sent_tokenize(x)) で以下のエラーメッセージ。``` LookupError: …

データサイエンスの歴史を振り返ろう①概略編

2003年にデータの洪水という言葉が使われてから早20年。 そろそろデータサイエンスの知見が溜まってきたので(人類的に)、ここいらで歴史を振り返りたいなと。というのも、私自身がデータサイエンスの世界に放り出された身なので、データサイエンスがどのよ…

時系列分析~pythonでトレンドの有無を確かめる~

仕事でARIMAモデルを使ってことあるのに、ろくにトレンドとか意識していなかったので反省を込めてメモ。 時系列のトレンドを超ざっくり言うと、時系列に長期的な変化のこと。増加傾向は年々多くの人がその対象を知るようになり、市場が拡大していることの影…

加筆予定。データ解釈学の要約

「データ解釈学」という本が面白いんですが、ちょっとずつ読んでいるのでメモしていきます。分析者のためのデータ解釈学入門 データの本質をとらえる技術作者:江崎貴裕ソシムAmazonというのもデータ解釈や理解の力は・そもそも分析前後で大切。・しかしその…

SQLのプリンシプル

良いか、SQLという言語はなぁ、、 FROM ↓ JOIN ON ↓ WHERE ↓ GROUP BY ↓ HAVING ↓ SELECTの順で動くんだ!これが原理原則だ!!これを腹落ちするまで理解できないと、休日を返上する羽目になるんだ。。

kaggleは大変という話。

2021年は健康面で大変でして。 更新頻度が落ちていたんですが、理由は健康だけでなくkaggleにも参加していたからでした。ようやく1つサブミットできたのでその辺の話でもと。 実はkaggleには参加していた 昨年の目標にkaggleをあげていたんですが、これが中…

特徴量エンジニアリングのメモ。

今回は意外に語られていない(?)テストデータの分割についてのメモです。「特徴量エンジニアリングは終わりがないし、初心者なのでとりあえずモデルに入れてみたい!」とは思うものの、モデルにどうやって入れれば良いかがわかりませんでした。どのタイミ…

俺たちのARIMAが機械学習より凄いという研究が出てた件。

どうも、2回目のワクチン接種で寝込んだ男です。ピロリ菌にやられ、ワクチンにやられ、引越しの準備が迫り、仕事はコミュニケーションミスで捗らずと散々な日々を過ごしております。コミュ障は、、ピロリ菌が片付いたら本格的に心療内科に相談しよかな。。…

未経験からデータサイエンティストになるためのSQLおすすめ本6冊

なんか偉そうなタイトルですいません。SQLとはデータサイエンティストやデータアナリストなどの職種では必須のプログラミング言語です。そこについて知識と経験が溜まってきたのでここいらでその辺りを紹介します。 初心者でSQLの本を探している人本の中身が…

データの欠損にはどう対処すれば良いのか〜データサイエンスの基本〜

データをみる上で怖いもの。それは、、、、欠損です! というわけで今回は欠損について思うことをメモします。プログラミングの話なのでご了承ください。 データの欠損とは データの欠損には大きく2つあります。それは一部が欠けているものとレコードそのも…

データサイエンスの基礎〜タイタニックの乗客〜

以前にもちょろっと取り上げたんですが、kaggleという技術コンペがあります。 Kaggle: Your Machine Learning and Data Science Community 今まで実務で忙しかったんで後回しにしていたんですが、退職して時間に余裕ができたんで登録してみました。kaggleの…

今週の小ネタ〜買い占め名に走る人はこんな人、他〜

というわけで不定期になってしまった小ネタ集です。www.mathlikeb.com www.mathlikeb.com 今回も3つほどどうぞ! 買い占めに走る人はこんな性格 作家の橘さんのブログでは「神経質な人が買い占めてしまう!」という内容が紹介されていて学びになりました。h…

今週の小ネタ〜AIライターの衝撃〜

不定期となってしまった小ネタ集。今回はAI関連にしぼって紹介していきます。 データサイエンスとデータエンジニアの違い 以下の記事では「データサイエンスってなんぞや?」について調べられたことが書いてあります。サクッとしてて良いです。https://www.y…

MYSQLメモ。数を数える時のコード

今回はこんなテーブルを考えます。create table quest (id varchar(5), time timestamp,quest_id varchar(7), win integer);quest_idは良くあるクエスト1-3とか。winはそのクエストが成功すれば1、失敗すれば0。入力データはこんな感じ。select * from que…

MYSQLメモ〜inner joinについて〜

このような2つのテーブルがあったとします。テーブル名:master + id install_time delete_flg + 1 2016-03-19 15:45:00 0 + テーブル名:login + id login_time + 1 2016-03-19 15:50:00 + 両者にはuser_idが共通しています。これらから登録と、ログイン日…

2019年読んでよかった本。

と言っても今年は論文、本、ともにほとんど読めてません笑。仕事が変わったので、ほとんどはコーディングとにらめっこでした。まあそれはそれで楽しかったんですけどね。 そんな背景の人が選んだので、流行の本ではなく仕事からみが大半ですねー。 働き方2.0…

SQLでサンプル作るときに手打ちしてましたよ、、、

ちょこちょことデータベース、というかpostgresqlのことを書いております。 その時も、いちいち年月 ’12’とか手打ちしていたわけです。まあブログで書くぐらいなら問題ないのですが、これを実務でもやっておりました笑。 開発にはテストが必須!! 基盤にし…