データサイエンス
この記事では、データ分析や機械学習で重要な「特徴スケーリング」の基礎について解説します。特徴スケーリングはデータを整理し、モデルの精度と計算効率を向上させるために不可欠です。標準化と正規化の2つの主要な方法を紹介し、それぞれの適用場面につい…
データサイエンティストがデータを扱う際に避けて通れない「不均衡データ」について解説します。不均衡データの確認方法から、オーバーサンプリングやアンダーサンプリングなど、データのバランスを改善するための具体的な手法を紹介し、どのようなケースで…
Notionを使ってデータサイエンスコンペのタスク管理を効率化する方法を紹介します。締切に追われることなく、プロジェクトを成功に導くための具体的な手順を解説しています。ガントチャートを活用して進行状況を視覚的に管理し、リマインダー機能で締切を守…
この記事では、Kaggleの環境でインターネット接続がない状況下で必要なパッケージをインストールし、モデルを使用するための具体的な手順を解説します。特に、bitsandbytesパッケージとOpenMathモデルの設定について詳しく説明します。
今日も元気にモデリング。このエラーがまた出た。 AttributeError: module 'numpy' has no attribute 'object'. `np.object` was a deprecated alias for the builtin `object`. To avoid this error in existing code, use `object` by itself. Doing this …
今日の作業は特徴量の生成。まだ先は長い。1. 今日の作業の全体的な進捗度は何点ですか?(「1=非常に不明瞭」から4=「非常に明確」で採点) →2。結局最後まではできなかった。2. 今日の作業の中で、もっとも重要なことを2つ挙げるなら何ですか?→ labels…
最近読んだ「AI•データ分析プロジェクトの全て」という本が、データサイエンティストのビジネス力に特化して解説した秀逸な一冊でした。ぜひ買ってください。
プロジェクトリーダーの教科書という本がITプロジェクトやデータサイエンティストの仕事にも有用なので簡易的に紹介する記事です。外資系コンサルが教える難題を解決する12ステップ プロジェクトリーダーの教科書作者:中鉢慎かんき出版AmazonPLになったけど…
最近更新が遅れてPVがダダ下がりしてまして。どうせ下がるならMCMCみたいなややマニアックなもの書いていこうということでメモがてら書いていきます。 MCMCの歴史 MCMC (Markov chain Monte Carlo) は、確率分布からサンプリングするための計算手法で、広く…
LDAで個人的に良かったサイトまとめました。いや、手抜きじゃないよ笑。 概要 tips-memo.com 原著論文の解説。これでLDAの概要をサクッと把握できる。 さらに深掘り トピックモデルの話 from kogecoo www.slideshare.net LSIとかLDAの前の経緯とかについて書…
最近エンジニアやプログラマーはIT業界にお金が流れている関係でそこそこ人気。でも物事が複雑になりすぎて「どんなスキルが必要なの?」とか「どれくらいの習熟が必要なの?」みたいなところまで複雑になっている気がします。データサイエンスなんかもまさ…
先輩がlambdaなるものをコードで書いていて「なんじゃこりゃ?」と思って調べました。どうやら無名関数というものらしいです。こちらが簡潔に書いてあって概要は掴めます。qiita.com そのまま引用させていただくと、無名関数だけあって書くのは楽に見えます…
今回はデータサイエンスのエントリです。自然言語処理を勉強し始めたんですが、これが中々奥が深く、ちょこちょことメモがわりに書くことにしました。自然言語処理というのはざっくり言えばテキストをあるルールで分類し、そこから何かしらのインサイトを得…
文書を分割する際にnltkを使用したのですが、まあ案の定うまくいかなかったのでメモ。 from nltk import tokenize train['sentense'] = train['text(カラム名)'].apply(lambda x: tokenize.sent_tokenize(x)) で以下のエラーメッセージ。``` LookupError: …
2003年にデータの洪水という言葉が使われてから早20年。 そろそろデータサイエンスの知見が溜まってきたので(人類的に)、ここいらで歴史を振り返りたいなと。というのも、私自身がデータサイエンスの世界に放り出された身なので、データサイエンスがどのよ…
仕事でARIMAモデルを使ってことあるのに、ろくにトレンドとか意識していなかったので反省を込めてメモ。 時系列のトレンドを超ざっくり言うと、時系列に長期的な変化のこと。増加傾向は年々多くの人がその対象を知るようになり、市場が拡大していることの影…
「データ解釈学」という本が面白いんですが、ちょっとずつ読んでいるのでメモしていきます。分析者のためのデータ解釈学入門 データの本質をとらえる技術作者:江崎貴裕ソシムAmazonというのもデータ解釈や理解の力は・そもそも分析前後で大切。・しかしその…
良いか、SQLという言語はなぁ、、 FROM ↓ JOIN ON ↓ WHERE ↓ GROUP BY ↓ HAVING ↓ SELECTの順で動くんだ!これが原理原則だ!!これを腹落ちするまで理解できないと、休日を返上する羽目になるんだ。。
2021年は健康面で大変でして。 更新頻度が落ちていたんですが、理由は健康だけでなくkaggleにも参加していたからでした。ようやく1つサブミットできたのでその辺の話でもと。 実はkaggleには参加していた 昨年の目標にkaggleをあげていたんですが、これが中…
今回は意外に語られていない(?)テストデータの分割についてのメモです。「特徴量エンジニアリングは終わりがないし、初心者なのでとりあえずモデルに入れてみたい!」とは思うものの、モデルにどうやって入れれば良いかがわかりませんでした。どのタイミ…
どうも、2回目のワクチン接種で寝込んだ男です。ピロリ菌にやられ、ワクチンにやられ、引越しの準備が迫り、仕事はコミュニケーションミスで捗らずと散々な日々を過ごしております。コミュ障は、、ピロリ菌が片付いたら本格的に心療内科に相談しよかな。。…
なんか偉そうなタイトルですいません。SQLとはデータサイエンティストやデータアナリストなどの職種では必須のプログラミング言語です。そこについて知識と経験が溜まってきたのでここいらでその辺りを紹介します。 初心者でSQLの本を探している人本の中身が…
データをみる上で怖いもの。それは、、、、欠損です! というわけで今回は欠損について思うことをメモします。プログラミングの話なのでご了承ください。 データの欠損とは データの欠損には大きく2つあります。それは一部が欠けているものとレコードそのも…
以前にもちょろっと取り上げたんですが、kaggleという技術コンペがあります。 Kaggle: Your Machine Learning and Data Science Community 今まで実務で忙しかったんで後回しにしていたんですが、退職して時間に余裕ができたんで登録してみました。kaggleの…
というわけで不定期になってしまった小ネタ集です。www.mathlikeb.com www.mathlikeb.com 今回も3つほどどうぞ! 買い占めに走る人はこんな性格 作家の橘さんのブログでは「神経質な人が買い占めてしまう!」という内容が紹介されていて学びになりました。h…
不定期となってしまった小ネタ集。今回はAI関連にしぼって紹介していきます。 データサイエンスとデータエンジニアの違い 以下の記事では「データサイエンスってなんぞや?」について調べられたことが書いてあります。サクッとしてて良いです。https://www.y…
今回はこんなテーブルを考えます。create table quest (id varchar(5), time timestamp,quest_id varchar(7), win integer);quest_idは良くあるクエスト1-3とか。winはそのクエストが成功すれば1、失敗すれば0。入力データはこんな感じ。select * from que…
このような2つのテーブルがあったとします。テーブル名:master + id install_time delete_flg + 1 2016-03-19 15:45:00 0 + テーブル名:login + id login_time + 1 2016-03-19 15:50:00 + 両者にはuser_idが共通しています。これらから登録と、ログイン日…
と言っても今年は論文、本、ともにほとんど読めてません笑。仕事が変わったので、ほとんどはコーディングとにらめっこでした。まあそれはそれで楽しかったんですけどね。 そんな背景の人が選んだので、流行の本ではなく仕事からみが大半ですねー。 働き方2.0…
ちょこちょことデータベース、というかpostgresqlのことを書いております。 その時も、いちいち年月 ’12’とか手打ちしていたわけです。まあブログで書くぐらいなら問題ないのですが、これを実務でもやっておりました笑。 開発にはテストが必須!! 基盤にし…