python
データサイエンティストがデータを扱う際に避けて通れない「不均衡データ」について解説します。不均衡データの確認方法から、オーバーサンプリングやアンダーサンプリングなど、データのバランスを改善するための具体的な手法を紹介し、どのようなケースで…
この記事では、Kaggleの環境でインターネット接続がない状況下で必要なパッケージをインストールし、モデルを使用するための具体的な手順を解説します。特に、bitsandbytesパッケージとOpenMathモデルの設定について詳しく説明します。
懲りずにコンペに参加しているザコデータサイエンティストです。今回参加しているコンペは特徴量が多く専門的なため特徴量を何とか削減できないかと思案していました。borutaのような自動で重要な特徴量を選択してくれるものも使ってみたんですが、あんまり…
最近更新が遅れてPVがダダ下がりしてまして。どうせ下がるならMCMCみたいなややマニアックなもの書いていこうということでメモがてら書いていきます。 MCMCの歴史 MCMC (Markov chain Monte Carlo) は、確率分布からサンプリングするための計算手法で、広く…
Jupyter Notebookでカーネルが繋がらない場合、以下の手順を試してみてください。1.ブラウザを再起動してみる 2.Jupyter Notebookを再起動してみる 3.カーネルが繋がっているかを確認する 4.カーネルが繋がっているかどうかを確認するには、以下の手順を実行…
今年こそKaggle頑張るんだ!という気持ちをへし折ってくるエラーModuleNotFoundError。 !pip install --user optuna やった後でも入らない。こんなことでお悩みのあなたはインストールされた場所とPythonが見にいっている場所が違う可能性がある。そこで実際…
先輩がlambdaなるものをコードで書いていて「なんじゃこりゃ?」と思って調べました。どうやら無名関数というものらしいです。こちらが簡潔に書いてあって概要は掴めます。qiita.com そのまま引用させていただくと、無名関数だけあって書くのは楽に見えます…
文書を分割する際にnltkを使用したのですが、まあ案の定うまくいかなかったのでメモ。 from nltk import tokenize train['sentense'] = train['text(カラム名)'].apply(lambda x: tokenize.sent_tokenize(x)) で以下のエラーメッセージ。``` LookupError: …
仕事でARIMAモデルを使ってことあるのに、ろくにトレンドとか意識していなかったので反省を込めてメモ。 時系列のトレンドを超ざっくり言うと、時系列に長期的な変化のこと。増加傾向は年々多くの人がその対象を知るようになり、市場が拡大していることの影…
投資の勉強とpythonの勉強がてら、yahooから各会社の時系列データを引っ張ってプロットしてみました。2022年は波乱の相場が待っているらしく、買っていたものはほとんど手放しました。 例えば、QQQ。 #ライブラリのインポート import pandas as pd import pa…
2021年は健康面で大変でして。 更新頻度が落ちていたんですが、理由は健康だけでなくkaggleにも参加していたからでした。ようやく1つサブミットできたのでその辺の話でもと。 実はkaggleには参加していた 昨年の目標にkaggleをあげていたんですが、これが中…
今回は意外に語られていない(?)テストデータの分割についてのメモです。「特徴量エンジニアリングは終わりがないし、初心者なのでとりあえずモデルに入れてみたい!」とは思うものの、モデルにどうやって入れれば良いかがわかりませんでした。どのタイミ…
最近は如実にブログ更新が減ってしまい、申し訳なく思っております。結構本業に力を入れていました。 というわけで近況の話をだらだら書くエントリになります。 今年の目標にはしなかったんですが、昨年は自動化システムを目標にしておりました。 www.mathli…
ご無沙汰してます。表題の通り、新しい会社に移籍して2週間が経ちました。そして、、なんの成果も得られませんでした!!なんで休日も調べ物とかで追われていて、なかなかブログ書けないんですよねぇ。。 そこで今回は、自戒も込めて近況を書いていきます。…
以前にもちょろっと取り上げたんですが、kaggleという技術コンペがあります。 Kaggle: Your Machine Learning and Data Science Community 今まで実務で忙しかったんで後回しにしていたんですが、退職して時間に余裕ができたんで登録してみました。kaggleの…
なんか自然数を与える。するとその数までで、3で割れるものはBUZZ、5で割れるものはFIZZ、3でも5でも割れるものはBUZZ FIZZを出力するコードを書いてみました。 x = input() y = int(float(x))#python comment out for i in range (1,y): if i % 15 == 0…
というわけで不定期になってしまった小ネタ集です。www.mathlikeb.com www.mathlikeb.com 今回も3つほどどうぞ! 買い占めに走る人はこんな性格 作家の橘さんのブログでは「神経質な人が買い占めてしまう!」という内容が紹介されていて学びになりました。h…
プログラミングでは男女で得意なことが違うのかもなという論文がありましたのでご紹介。 この研究は男女33人の大学生が対象です。事前に創造性や共感力、システム化力なんかを測定して、実際のプログラミング力との相関をみたようです。プログラミング言語が…
毎度不定期のpython講座。 www.mathlikeb.com www.mathlikeb.com 機械学習との相性がよろしくて、相変わらずの人気っぷりです。私は今は仕事でpythonを使っていないのですが、機械学習には興味があるのでちょこちょこいじっている次第であります。最近の教科…
anacondaといえば、Pythonでも有名なライブラリ。 友人からも進められてはいたんですが、「しばらくはいいかなー」くらいで先延ばしにしていました。 が、この度「機械学習のエッセンス」を買ってしまいまして。のっけからインストールを進められたので思考…
こんにちは、すっかり花粉に悩まされてる男です。 悲報というのは続くもんですが、解決するときはあっさり解決するもんです。 mathlikeb.hatenablog.com mathlikeb.hatenablog.com アドセンス審査に落ちた理由は、なんてことありませんでした。 たんに、はて…
相変わらずpythonの奮闘しております。 今週はやってもやってもエラーが続き、かなり焦っておりました。 pyhtonのいいところは、1行ごとに命令を出すので、どこでエラーが出たかがすぐわかります。(もちろん、初心者はこの後どう改善するかで悩むんですが…
ビックデータは最近のホットなお話です。 私も3年くらいでパイソンで実装していきたいなーとかのんびり思っていました。 ところが「ビックデータにもデメリットはあるよなー」とある論文を読んだので、今日はこちらをご紹介。 セキュリティはどうなの問題 …
ゲームを作りながら楽しく学べる本を読んでるんです。 ゲームを作りながら楽しく学べるPythonプログラミング (Future Coders(NextPublishing)) 作者: 田中賢一郎 出版社/メーカー: インプレスR&D 発売日: 2017/03/24 メディア: Kindle版 この商品を含むブ…