kaggle
この記事では、データ分析や機械学習で重要な「特徴スケーリング」の基礎について解説します。特徴スケーリングはデータを整理し、モデルの精度と計算効率を向上させるために不可欠です。標準化と正規化の2つの主要な方法を紹介し、それぞれの適用場面につい…
データサイエンティストがデータを扱う際に避けて通れない「不均衡データ」について解説します。不均衡データの確認方法から、オーバーサンプリングやアンダーサンプリングなど、データのバランスを改善するための具体的な手法を紹介し、どのようなケースで…
この記事では、Kaggleの環境でインターネット接続がない状況下で必要なパッケージをインストールし、モデルを使用するための具体的な手順を解説します。特に、bitsandbytesパッケージとOpenMathモデルの設定について詳しく説明します。
この記事は、Kaggleのコンペティション「AIMO OpenMath - Mistral」において、ベースラインモデルを作成する過程を紹介しています。記事では、参考にしたノートブックや環境設定に関する詳細な説明を提供し、モデル定義から解答生成までの手順を解説していま…
数学モデルを利用しようとした際に発生したエラーについて解決方法を解説します。エラーの原因として、モデルIDが正しくない可能性があります。そのため、正しいモデルIDを取得し、再度確認します。
新しいコンペに挑戦するため、前回の反省点を踏まえて準備を整えました。サンプルデータでのサブミットを通じて、提出の形を整えることに重点を置きましたが、提出時にインターネットアクセスのエラーが発生しました。その後、エラーの解決策を試みましたが…
自然言語処理のコンペに挑戦しましたが、トランスフォーマーモデルの不慣れやデータの取り扱いに戸惑い、体調不良も重なり断念しました。ここではその反省点と次回への対策を紹介します。
Transformerモデルは、自然言語処理などのタスクで広く使用される強力な機械学習モデルです。しかし、Transformerモデルは通常、512トークンの制限を持ちます。テキストがこの制限を超える場合、効果的に分割する必要があります。この記事では、テキストをオ…
kaggle
今日も元気にモデリング。このエラーがまた出た。 AttributeError: module 'numpy' has no attribute 'object'. `np.object` was a deprecated alias for the builtin `object`. To avoid this error in existing code, use `object` by itself. Doing this …
今日の作業は特徴量の生成。まだ先は長い。1. 今日の作業の全体的な進捗度は何点ですか?(「1=非常に不明瞭」から4=「非常に明確」で採点) →2。結局最後まではできなかった。2. 今日の作業の中で、もっとも重要なことを2つ挙げるなら何ですか?→ labels…
機械学習エンジニアのためのTransformers ―最先端の自然言語処理ライブラリによるモデル開発 を読んでkaggleに参加してます。
以下のnoteがとても参考になったのでメモ。https://www.kaggle.com/code/keitashimizu21/en-ja-icr-14th-solution#Data-Understandingざっくりと流れをみると1. データ読み込み 2. 評価関数の定義 3. データ理解 欠損、データ型 ヒートマップ 4. データクリ…
というわけでkaggleに参加してましたー。結果はメダルにかすりもせず。数千番代という残念な結果に終わりました。うーん、道のりは長い。。そこで備忘録的に今回のコンペをまとめていこうかと思います。ICRというコンペに出ていました。患者の様々な特徴量か…
懲りずにコンペに参加しているザコデータサイエンティストです。今回参加しているコンペは特徴量が多く専門的なため特徴量を何とか削減できないかと思案していました。borutaのような自動で重要な特徴量を選択してくれるものも使ってみたんですが、あんまり…
先輩がlambdaなるものをコードで書いていて「なんじゃこりゃ?」と思って調べました。どうやら無名関数というものらしいです。こちらが簡潔に書いてあって概要は掴めます。qiita.com そのまま引用させていただくと、無名関数だけあって書くのは楽に見えます…
文書を分割する際にnltkを使用したのですが、まあ案の定うまくいかなかったのでメモ。 from nltk import tokenize train['sentense'] = train['text(カラム名)'].apply(lambda x: tokenize.sent_tokenize(x)) で以下のエラーメッセージ。``` LookupError: …
2021年は健康面で大変でして。 更新頻度が落ちていたんですが、理由は健康だけでなくkaggleにも参加していたからでした。ようやく1つサブミットできたのでその辺の話でもと。 実はkaggleには参加していた 昨年の目標にkaggleをあげていたんですが、これが中…
今回は意外に語られていない(?)テストデータの分割についてのメモです。「特徴量エンジニアリングは終わりがないし、初心者なのでとりあえずモデルに入れてみたい!」とは思うものの、モデルにどうやって入れれば良いかがわかりませんでした。どのタイミ…
以前にもちょろっと取り上げたんですが、kaggleという技術コンペがあります。 Kaggle: Your Machine Learning and Data Science Community 今まで実務で忙しかったんで後回しにしていたんですが、退職して時間に余裕ができたんで登録してみました。kaggleの…