エビデンスで教育を考えた

頭が良くなる科学論文を紹介していきます。お勧め商品は楽天ルームで!https://room.rakuten.co.jp/room_12b7a40f6d/items

kaggle

特徴スケーリングの基本: 標準化と正規化の違いと選び方

この記事では、データ分析や機械学習で重要な「特徴スケーリング」の基礎について解説します。特徴スケーリングはデータを整理し、モデルの精度と計算効率を向上させるために不可欠です。標準化と正規化の2つの主要な方法を紹介し、それぞれの適用場面につい…

データサイエンティスト必見!不均衡データの確認と補正方法を徹底解説

データサイエンティストがデータを扱う際に避けて通れない「不均衡データ」について解説します。不均衡データの確認方法から、オーバーサンプリングやアンダーサンプリングなど、データのバランスを改善するための具体的な手法を紹介し、どのようなケースで…

コンペメモ(sumitできない問題に取り組む)〜AI Mathematical Olympiad - Progress Prize 1④〜

この記事では、Kaggleの環境でインターネット接続がない状況下で必要なパッケージをインストールし、モデルを使用するための具体的な手順を解説します。特に、bitsandbytesパッケージとOpenMathモデルの設定について詳しく説明します。

コンペメモ(ベースラインモデルの完成)〜AI Mathematical Olympiad - Progress Prize 1③〜

この記事は、Kaggleのコンペティション「AIMO OpenMath - Mistral」において、ベースラインモデルを作成する過程を紹介しています。記事では、参考にしたノートブックや環境設定に関する詳細な説明を提供し、モデル定義から解答生成までの手順を解説していま…

コンペメモ(モデルIDの取得とパスの指定に手こずった)〜AI Mathematical Olympiad - Progress Prize 1②〜

数学モデルを利用しようとした際に発生したエラーについて解決方法を解説します。エラーの原因として、モデルIDが正しくない可能性があります。そのため、正しいモデルIDを取得し、再度確認します。

コンペメモ(まずサブミットしてみることから)〜AI Mathematical Olympiad - Progress Prize 1①〜

新しいコンペに挑戦するため、前回の反省点を踏まえて準備を整えました。サンプルデータでのサブミットを通じて、提出の形を整えることに重点を置きましたが、提出時にインターネットアクセスのエラーが発生しました。その後、エラーの解決策を試みましたが…

自然言語処理コンペ挑戦: 反省点と次回対策〜The Learning Agency Lab - PII Data Detection⑥〜

自然言語処理のコンペに挑戦しましたが、トランスフォーマーモデルの不慣れやデータの取り扱いに戸惑い、体調不良も重なり断念しました。ここではその反省点と次回への対策を紹介します。

コンペメモ(次元512を超えてしまうので、、)〜The Learning Agency Lab - PII Data Detection⑤〜

Transformerモデルは、自然言語処理などのタスクで広く使用される強力な機械学習モデルです。しかし、Transformerモデルは通常、512トークンの制限を持ちます。テキストがこの制限を超える場合、効果的に分割する必要があります。この記事では、テキストをオ…

コンペメモ(ノートブックが利用可能なメモリを超えるメモリを割り当てようとしました。 再開しました)〜The Learning Agency Lab - PII Data Detection④〜

kaggle

コンペメモ〜The Learning Agency Lab - PII Data Detection③〜

今日も元気にモデリング。このエラーがまた出た。 AttributeError: module 'numpy' has no attribute 'object'. `np.object` was a deprecated alias for the builtin `object`. To avoid this error in existing code, use `object` by itself. Doing this …

コンペメモ〜The Learning Agency Lab - PII Data Detection②〜

今日の作業は特徴量の生成。まだ先は長い。1. 今日の作業の全体的な進捗度は何点ですか?(「1=非常に不明瞭」から4=「非常に明確」で採点) →2。結局最後まではできなかった。2. 今日の作業の中で、もっとも重要なことを2つ挙げるなら何ですか?→ labels…

コンペメモ〜The Learning Agency Lab - PII Data Detection〜

機械学習エンジニアのためのTransformers ―最先端の自然言語処理ライブラリによるモデル開発 を読んでkaggleに参加してます。

メモ〜Kaggle金メダリストがやっていたこと〜

以下のnoteがとても参考になったのでメモ。https://www.kaggle.com/code/keitashimizu21/en-ja-icr-14th-solution#Data-Understandingざっくりと流れをみると1. データ読み込み 2. 評価関数の定義 3. データ理解 欠損、データ型 ヒートマップ 4. データクリ…

kaggleコンペが終わりました。。

というわけでkaggleに参加してましたー。結果はメダルにかすりもせず。数千番代という残念な結果に終わりました。うーん、道のりは長い。。そこで備忘録的に今回のコンペをまとめていこうかと思います。ICRというコンペに出ていました。患者の様々な特徴量か…

kaggleメモ〜ラッパーメソッドでの特徴量削減したら逆にスコア下がった〜

懲りずにコンペに参加しているザコデータサイエンティストです。今回参加しているコンペは特徴量が多く専門的なため特徴量を何とか削減できないかと思案していました。borutaのような自動で重要な特徴量を選択してくれるものも使ってみたんですが、あんまり…

無名関数は関数の中に定義すると可読性上がって良いな〜という技術メモ

先輩がlambdaなるものをコードで書いていて「なんじゃこりゃ?」と思って調べました。どうやら無名関数というものらしいです。こちらが簡潔に書いてあって概要は掴めます。qiita.com そのまま引用させていただくと、無名関数だけあって書くのは楽に見えます…

自然言語処理でLookupErrorした

文書を分割する際にnltkを使用したのですが、まあ案の定うまくいかなかったのでメモ。 from nltk import tokenize train['sentense'] = train['text(カラム名)'].apply(lambda x: tokenize.sent_tokenize(x)) で以下のエラーメッセージ。``` LookupError: …

kaggleは大変という話。

2021年は健康面で大変でして。 更新頻度が落ちていたんですが、理由は健康だけでなくkaggleにも参加していたからでした。ようやく1つサブミットできたのでその辺の話でもと。 実はkaggleには参加していた 昨年の目標にkaggleをあげていたんですが、これが中…

特徴量エンジニアリングのメモ。

今回は意外に語られていない(?)テストデータの分割についてのメモです。「特徴量エンジニアリングは終わりがないし、初心者なのでとりあえずモデルに入れてみたい!」とは思うものの、モデルにどうやって入れれば良いかがわかりませんでした。どのタイミ…

データサイエンスの基礎〜タイタニックの乗客〜

以前にもちょろっと取り上げたんですが、kaggleという技術コンペがあります。 Kaggle: Your Machine Learning and Data Science Community 今まで実務で忙しかったんで後回しにしていたんですが、退職して時間に余裕ができたんで登録してみました。kaggleの…