Пікірлер
@user-pp2xn3zk7d
@user-pp2xn3zk7d 18 күн бұрын
こんにちは。bookersでデータ購入させて頂きました。dev-um-ai-1-analysis-horseblood これにはスクレイビングしたデータは入っていないのでしょうか。見当たりませんので。
@yukkuri-ds-lab
@yukkuri-ds-lab 18 күн бұрын
コメントありがとうございます! そうですね、ご推察の通り競馬データ自体はご自身でスクレイピングして頂くことになります。 実際にスクレイピングしたデータを第三者が公開、共有するのは色々と問題があるため、もし他で共有されてる方がいらしたら最悪違法行為ですのでお気をつけください。 また他にも別の問題として、スクレイピングした2000年から2024年の最新のデータを集めるとかなりの容量になるので、Bookersでアップロードできるサイズに収まらないんです。 スクレイピングの手順は第5段記事にも記載しておりますので、お手隙おかけしますが各自でスクレイプして頂きますよう宜しくお願いします🙇
@user-pp2xn3zk7d
@user-pp2xn3zk7d 18 күн бұрын
@@yukkuri-ds-lab 返信ありがとうございます。確かに1年分で1GB近くですからね。。承知致しました。
@yukkuri-ds-lab
@yukkuri-ds-lab 17 күн бұрын
すみません、お手数おかけします。 また他に何かございましたらお気軽にコメント等して頂ければ対応いたしますので、よろしくお願いします!
@lollol-ts4jj
@lollol-ts4jj 22 күн бұрын
質問なのですが確定オッズを特徴量に入れられているということは投票締め切り後にどの馬が勝つかの確率を出すことを目的とされているのでしょうか?
@yukkuri-ds-lab
@yukkuri-ds-lab 22 күн бұрын
コメントありがとうございます!流石にネタ的な物言いだと思ってますが、質問の意図としてはごもっともで、 公開されてる過去のレース結果はどれも確定オッズになっているので、モデルにオッズやらを考慮するには少し工夫が必要だというのは課題として認識しています ファーストモデルでは、その最終オッズをそのまま使ったので、そのような疑問を持たれたかと思いますが、質問のようには考えていないというのが回答です とはいえ、最終オッズしか分からないからオッズ情報を使わないというのはやはり疑問に思っていて、どうやってオッズ情報をモデルに絡めていくかは今後のモデル改良の切り口の1つになってくるのかなと思ってます 一案としては、まあある程度量子化されてますけど、予想をするのが投票締め切り30分前のモデルを考えたのなら、その時点のオッズと最終オッズはそこまで大きく変わらないという仮定のもと、訓練時には最終オッズを整数値に丸めたものを特徴量にするだとか、色々やり方はあると思います そういった事をこれから議論していければと考えてます (そもそもオッズを見ずに買い目を決める予想家なんていないと思ってるので、競馬予想モデルにもオッズの情報は与えるべきというモチベがありますので、どうにかオッズも考慮したモデルを作りたいって感じですね)
@lollol-ts4jj
@lollol-ts4jj 22 күн бұрын
@@yukkuri-ds-lab 丁寧な解答ありがとうございます。動画を見ていて思ったことをそのまま書きこんでしまいました。 オッズを特徴量に含めるという話ですがJRAの馬券売り上げの時間別データによると5分前からの売り上げに占めるシェアが5割近いということですのでオッズが変化しないと仮定するよりはどのように変化するのかを特徴量にできたら面白いかもしれませんね。
@yukkuri-ds-lab
@yukkuri-ds-lab 21 күн бұрын
@@lollol-ts4jj 貴重な情報ありがとうございます! まだそういったオッズの特性の調査が出来ておらず、5分前の売上が半数を占めるというのは初知りだったので非常に参考になります。 確かにそうなってくると、どう変化するかを考えた方が良いように思いますね… パッと思い浮かぶのが確率的なシミュレーションをするやり方で、オッズに揺らぎを与えたものをモデルの特徴量に入れるとかですね そのためには、簡単な確率モデルを作ってそこからオッズ分布のサンプリングが必要になってきますが、 そうなると学習量が単純にサンプリング数倍増えるので、学習時のデータもある程度絞ったり工夫が必要になりそうです… あと、これを言っちゃうとあれなんですが、、 そもそも私の考えているモデルだと、前処理の段階で出走したけど出走中止(labelカラムが「中」)になったデータは削除してしまっているため、 学習データは厳密なオリジナルの情報ではない状態でモデルを作ることになってるんですよね なので、もし有益なモデルが出来たとしても、本番稼働時には幾分割安の結果になることは覚悟してます とはいえそういった話は別に競馬に限ったことでもないので、オッズ情報しかり学習時はあくまで理想のデータってことで、 そういうもんだと割り切ってどこかで折り合いをつけるのが重要だとは思ってます モデル改良の良いヒントになりました 今後ともよろしくお願いいたします!
@ryon3198
@ryon3198 27 күн бұрын
逆に重賞以外で見た時、成長速度に特定の種牡馬が父や母父に関わるか調べてみるのはどうでしょうか 重賞と違って単純にサンプルが多いですし
@yukkuri-ds-lab
@yukkuri-ds-lab 25 күн бұрын
コメントありがとうございます! 仰る通りで重賞クラス勝利馬だけで分析しても大した結果が出ないということは、そもそも血統によって成長度合いに差が出るという見立てが違うか、重賞クラスで勝利する競走馬はそういう仮定が最早ないかのどちらかだと思ってます。 次回の動画でも最後に少し取り上げようと思ってますが、馬主としては早くから勝つ馬が欲しい訳なので、もしかしたら前者の方が正しいのかもしれません。 そういった意味でも、重賞クラス勝利馬以外でも調べて差があるか否かを見る必要がありますね。(その場合、評価基準を見直す必要があるので少し手間はかかりますが・・・)
@okiku_19758
@okiku_19758 Ай бұрын
1〜3購入済みの場合、第5弾の記事はどちらから参照できますか
@yukkuri-ds-lab
@yukkuri-ds-lab Ай бұрын
コメントありがとうございます! Bookersの記事更新通知のメール送信機能にて第5弾記事の無料URLを配信しております。 再度メール通知送りましたので、ご確認いただけますと幸いです。
@okiku_19758
@okiku_19758 Ай бұрын
@@yukkuri-ds-lab ご対応ありがとうございます。 私だけかもしれませんが、確認したところ記事更新メールが届いておりませんでした。。 一応購入した領収も確認できたのでアカウントは間違ってはいないはずですが。。 ちなみに6/30に第5弾新規投稿のメールは受信できておりました。 何度もすみませんが再度ご確認お願いしてもよろしいでしょうか🙇‍♂️
@yukkuri-ds-lab
@yukkuri-ds-lab Ай бұрын
ご迷惑をおかけして申し訳ございません。Bookersのサービスは色々と品質に問題があるようで、、記事更新通知でさえ連絡がいかないのは想定外でした… 第5弾記事の冒頭に「0.特典の受け取りについて」を追加いたしました。第5弾記事の無料URLの取得方法を記載しておりますので、お手数をおかけしますがそちらで取得できるかご確認いただけますでしょうか?
@okiku_19758
@okiku_19758 Ай бұрын
@@yukkuri-ds-lab 早急な対応ありがとうございます。 指定いただいた手順で記事確認することができました。🙇‍♂️ ご対応ありがとうございます。 これからも勉強させていただきます!
@yukkuri-ds-lab
@yukkuri-ds-lab Ай бұрын
良かったです!すみません、お手数おかけしました。次回投稿する動画でも第5弾記事の無料URL取得方法展開します。 コメントで連絡していただきありがとうございました。 今後ともよろしくお願いします!
@user-tp8sb4wn9p
@user-tp8sb4wn9p 3 ай бұрын
bookersで購入してコマンドプロンプトで動かないんですがどうしてでしょうか?
@yukkuri-ds-lab
@yukkuri-ds-lab 3 ай бұрын
回答遅くなりました!ご質問ありがとうございます!また、記事のご購入いただきありがとうございます!! 出来得る限りサポートいたします!! Bookersの第一弾記事であるスクレイピング用のソースを購入して頂いたということで、 コマンドプロンプトで正常に動作しないということですが、 以下の手順に沿って環境の準備が出来ているかご確認し、項番5のコマンドを実行してみてください。 実施手順 1.Pythonのインストールが正常にできており、バージョン3.10.5であることをご確認ください。  確認方法:コマンドプロンプトで「python -V」と実行し、「Python 3.10.5」という数字が出力されればOKです。   2.Bookersの第一弾記事に記載している「2.4 必要なPythonパッケージ」をpipで正常にインストールできていますでしょうか?  コマンドプロンプト上で以下を実行して頂くとインストール出来ます。  pip install pandas==2.1.1 numpy==1.26.1 tqdm==4.66.1 Beautifulsoup4==4.12.2 requests==2.31.0   3.Bookersの第一弾記事に記載している「3.1 フォルダ構成」通りのフォルダ構成になっていますでしょうか。 4.上記3点すべて実施できており「7.実際のスクレイピング用のソース」記載のCODE1~CODE9をすべて  タイピングミスなくコピp...写経できていますでしょうか。   5.上記4点すべて実施済という前提で「cmd_first_scraping.bat」のバッチファイルがあるフォルダがコマンドプロンプトのカレントディレクトリになっていることを確認して、以下のコマンドを実行してください。  cmd_first_scraping.bat --all --start-year 2010 --end-year 2024 上記手順を実行してもうまく行かない場合は、コマンドプロンプトに表示されている内容をKZbinのコメント欄にコピペしてください。 お手数をおかけしますが、ご確認よろしくお願いいたします。