【Python】スクレイピングを利用して競馬データを収集する【機械学習】

Рет қаралды 81,721

Күн бұрын

Пікірлер: 136

@競馬予想で始めるデータ分析 4 жыл бұрын

ソースコードはこちら。変更点やよくあるエラーの対処法も載せています。 →zenn.dev/dijzpeb/books/6bb4672104889fc17829? 0:19 pandasを使って1行でスクレイピングする方法 4:50 スクレイピングしたデータを辞書型に入れる理由 10:30 '1'→'01'と桁を合わせる方法(zfill) 13:40 ページ数が膨大な時、どうすれば良いか？(try~exceptの使い方) 15:30 重い処理がどのくらい終わっているか知る方法(tqdmとは？) 17:01 continue文の使い方 25:09 辞書型をDataFrame型に変換して見やすくする方法 27:42 3000件のデータを1つにまとめる方法(pd.concat) 29:54 pandasのデータを1行で保存する方法(pickle) 【他の動画】次の動画：「正規表現を使って競馬データを加工する」 kzbin.info/www/bejne/fIHRq3idgKesbtk ロジスティック回帰で競馬予想してみた kzbin.info/www/bejne/sKnRZ2SKoLWMjJo ランダムフォレスト・勾配ブースティング木で競馬予想してみた kzbin.info/www/bejne/ipPGdoB-r9yXmaM

@廣田峻之 4 жыл бұрын

--------------------------------------------------------------------------- ValueError Traceback (most recent call last) in 3 print(f'key:{key}') 4 results[key].index = [key] * len(results[key]) ----> 5 results = pd.concat([results[key] for key in results]) 6 results.to_pickle('results.pickle') ~/opt/anaconda3/envs/develop/lib/python3.7/site-packages/pandas/core/reshape/concat.py in concat(objs, axis, join, join_axes, ignore_index, keys, levels, names, verify_integrity, sort, copy) 253 verify_integrity=verify_integrity, 254 copy=copy, --> 255 sort=sort, 256 ) 257 ~/opt/anaconda3/envs/develop/lib/python3.7/site-packages/pandas/core/reshape/concat.py in __init__(self, objs, axis, join, join_axes, keys, levels, names, ignore_index, verify_integrity, copy, sort) 302 303 if len(objs) == 0: --> 304 raise ValueError("No objects to concatenate") 305 306 if keys is None: ValueError: No objects to concatenate

@よろずやチャンネル-u7o 7 ай бұрын

プログラム初心者で申し訳ないのですが初めのpd.read_html(url)で実行すると次のようなエラーが出ました、UnicodeDecodeError: 'utf -8' codec can't decode byte 0xba inposition 　何かインストールしないと駄目なライブラリはありますか？教えてください。お願いします。

@競馬予想で始めるデータ分析 6 ай бұрын

当時と仕様が変わっているので、 from urllib.request import urlopen url = "db.netkeiba.com/race/201901010101" html = urlopen(url).read() pd.read_html(html)[0] を実行してみてください！

@あさ-m2y Жыл бұрын

面白いチャンネルですね個人的にめっちゃ好きです

@競馬予想で始めるデータ分析 3 жыл бұрын

【重要な変更点】・race_idが存在しないページについても読み込み自体は行われているので、time.sleep(1)はfor文の先頭に書くようにしてください！・当時と仕様が変わっていて、pd.read_html(url)がUnicodeDecodeErrorとなる場合があるので、その場合は、 from urllib.request import urlopen url = "db.netkeiba.com/race/201901010101" html = urlopen(url).read() pd.read_html(html)[0] で実行してください

@so16155 4 жыл бұрын

現在スクレイピング中！わかりやすい動画ですね！！

@チャンネルアイサム 2 жыл бұрын

race_results[race_id] = pd.read_html(url)[0] test = scrape_race_results(race_id_list) の部分にlist indices must be integers or slices, not strとエラーが出てしまいます。自分なりに調べ上げたのですが改善されません。どう対処していけば改善されますか？よろしくお願いします。

@keegee1858 2 жыл бұрын

動画見ながら自分で実装してみるととても勉強になりました。ありがとうございます！！！！！！！！他の動画も見ます-

@yude1839 3 жыл бұрын

PythonとHTMLの入門を読んだだけの初心者です。かなり初歩な質問ですみません。プログラムを入力は入門書ではメモで練習してたのですが、本動画は何を使用されてますか？できればWindowsで無料のものがあれば教えください。よろしくお願いします。

@競馬予想で始めるデータ分析 3 жыл бұрын

この動画はJupuyter Notebookですが、後々後継ツールのJupyterLabに変えます！参考：kzbin.info/www/bejne/sJnVkICNm7-UnsU Windowsでも無料で使えます。

@yude1839 3 жыл бұрын

ありがとうございました。すぐに試してみます！

@グライ-q6g 4 жыл бұрын

すごい興味深いです…！

@競馬予想で始めるデータ分析 4 жыл бұрын

ありがとうございます！どんな動画が見たいとか、もしあれば是非教えてください！

@kenken2942 3 жыл бұрын

こんにちは。zennにて完全版を購入させてもらいました！これから学び狂いたいと思います！早速質問なのですが、第１回の動画とともに公開されているソースコードを丸々コピペして実行したところ、以下のエラーが表示され、うまく情報取得が開始されませんでした。この場合、どのように対処すべきでしょうか？？ ---------------------------------------------------------------------------------------------------- time.sleep(1) ^ TabError: inconsistent use of tabs and spaces in indentation ----------------------------------------------------------------------------------------------------

@kenken2942 3 жыл бұрын

すみません、本件、解決しました。単にコピペした際に、インデントがずれていただけのようで整理してから再実行したら、うまくいきました。

@Muffin_Muffin_Muffin 4 жыл бұрын

貴重な動画ありがとうございます！競馬歴10年で勝ったり負けたりですが安定して勝てるようになりたいと思いましたので本シリーズで勉強させて頂きます！

@internetbitagent9112 3 жыл бұрын

今日、初めて見たのですが、Pythonの開発環境は何を使われていますか？ ITの仕事をしていたことがあるので、専門用語は分かります。よろしくお願いします。

@競馬予想で始めるデータ分析 3 жыл бұрын

この動画ではJupyter Notebookというものを使っています。ですが、現在ではJupyter Labの方が便利だと思います！参考：kzbin.info/www/bejne/sJnVkICNm7-UnsU

@かみきり-i3u 4 жыл бұрын

エラーが発生した際の思考の過程も説明していただけたのが良かったです。

@マロウタ-d4t 3 жыл бұрын

勉強させてもらってます！電子書籍も買わせていただいて、コードを参考にスクレイピングを試みたところ下記エラーが出ました。 TypeError: list indices must be integers or slices, not tuple 特にいじらずまずはコピペしてみたのですが、この場合どこがエラーになっているのでしょうか？

@ターザン-b5f 3 жыл бұрын

日本語訳するとわかると思いますよ🙌

@nnayyu4342 2 жыл бұрын

最近勉強してみようと見始めました。 2つ質問なのですが、動画と同じように入力したと思うのですが、valueerrorとなることと、レースIDが7200レコードになり、訳分からなくなっています。教えて頂けると有り難いです。

@麒麟児-p5m 3 жыл бұрын

わかりやすく説明していただきありがとうございます！勉強させていただきます！

@makochan0909 3 жыл бұрын

はじめましてPython初心者です。6:36あたりで3レースの結果を取得されていますが1レースしか取得できません。なにか抜け落ちているのでしょうか。よろしくお願いします。

@競馬予想で始めるデータ分析 3 жыл бұрын

その2レース目と3レース目は、それぞれ単独でpd.read_htmlで取得できますか？

@makochan0909 3 жыл бұрын

@@競馬予想で始めるデータ分析さん返信ありがとうございます。それぞれ取得出来ます。そこでは取得出来ませんがそれ以降コード打ってピックルに格納されてるので謎でした。

@競馬予想で始めるデータ分析 3 жыл бұрын

回答が遅くなってしまったので、その時の状況は再現できないかもしれないですが、最終的にデータがちゃんと入っていたら大丈夫です！

@アプリ太郎-f4l 2 жыл бұрын

こんにちは素晴らしい動画で勉強させて頂いています。エラーが出てしまうので質問させてください。 if race_id in race_results.keys(): と入力すると、 'list' object has no attribute 'keys' と出ます。宜しくお願いします。

@ロビンソン-e5l 4 жыл бұрын

初心者です！6:30「更新してなかった」の時に何をされたのですか？[7]まで同じコードを書いて実行しているのですがエラーから抜けられずどこが違うのかわかりません、、、。

@競馬予想で始めるデータ分析 4 жыл бұрын

shift+Enterを押して、[6]のセルを実行しました！

@ロビンソン-e5l 4 жыл бұрын

@@競馬予想で始めるデータ分析回答ありがとうございます…！不明なことが多くて辛いですが勉強させて頂いています！

@深町将史 4 жыл бұрын

興味深いです! プログラミングに魅了されています競馬を通してプログラミング勉強します！

@競馬予想で始めるデータ分析 4 жыл бұрын

ありがとうございます！動画中で何か分からないことなどあったら、是非聞いてください！

@co.1797 4 жыл бұрын

分かりやすいし面白いです！

@緑区競馬坂チャンネル 4 жыл бұрын

とてもわかりやすいです。ありがとうございます！

@believe9452 4 жыл бұрын

非常にわかりやすかったです！血統、実績、オッズなども含めた着順予想、回収率最大化の機械学習も見てみたいです！

@競馬予想で始めるデータ分析 4 жыл бұрын

ありがとうございます！着順予想と回収率最大化は、今後やっていく予定です！

@dummy6510 2 жыл бұрын

セキュリティ／ネットワーク／サーバ系のエンジニアです。競馬は趣味ですが、大変わかりやすく助かります。地方競馬向けに変更し、スクレイピングで2016年以降の全場のデータを取得できました。機械学習の前に、dailyでの結果の自動取得、蓄積を検証中です。完成すればクラウドサーバ上で稼働させようと思っています。

@おしん-w6q 3 жыл бұрын

控えめに言って神動画です。やってみたいけど調べながらで時間を膨大に消費していたので、非常に勉強になります。応援の意味も込めて、チャンネル登録させていただきます！

@ゆうりんちー-u2s 4 жыл бұрын

毎週、考える時間が勿体ないと思い、自分の考えをコード化して pcに予想してもらおうと考えました。プログラミングはprogateで触った程度でまだまだですが、動画を見て頑張ろうと思いました。参考にさせてもらいます。

@競馬予想で始めるデータ分析 4 жыл бұрын

頑張ってください！何か分からないことがあれば是非質問してください！

@ゆうりんちー-u2s 4 жыл бұрын

競馬予想で始めるデータ分析・機械学習ありがとうございます。とりあえず、この動画の学習は終わりました。引き続き頑張ります。

@浮田凌佑-p1q 4 жыл бұрын

とてもわかりやすかったです！こういう動画を探していました！！質問なのですが, 25:25 あたりで, スクレイピング完了後のデータが, 準備されているデータと違い 0 1 2 3 4 5 6 7 8 9 ... 着順枠番馬番馬名性齢斤量騎手..... 1 1 1 ゴルコンダ牡2 54 のように, ヘッダー(？)が数字になってしまっており, その後の処理がうまくいかないのですが, 何か良い方法はありますでしょうか？初歩的な質問で申し訳ないです.

@競馬予想で始めるデータ分析 4 жыл бұрын

ありがとうございます！嬉しいです！質問の件ですが、全部のデータでそのようになりますか？その場合、pd.read_html(url, header=0)[0]と、0行目をヘッダーに指定してみるとどうでしょうか？

@浮田凌佑-p1q 4 жыл бұрын

返信ありがとうございます！全部のデータとはなんでしょうか？動画を追ってスクレイピングしたデータはそうなってしまいました… ありがとうございます😭試してみます！

@競馬予想で始めるデータ分析 4 жыл бұрын

どのページに対してread_htmlしても、上の結果になりますか？ということです！（ページによって変わってしまう、とかだと上の解決策が使えないので・・・）

@浮田凌佑-p1q 4 жыл бұрын

最初のページのみで, header=0で無事解決できました！！本当に丁寧にありがとうございました！引き続き動画全部見させていただきます！

@RyoH-c4v 3 жыл бұрын

初めまして。非常に分かりやすい動画ありがとうございます。自己解決できない部分があったため質問させていただきます。 tqdmで進捗状況を表示させるプロセスの部分でtest=scrape_race_results(race_id_list)を実行するとプログレスバーが表示されない上、Index error: list index out of range という表示が出てしまい進めません。何が原因でしょうか。。。ご回答いただけると助かります！！！

@競馬予想で始めるデータ分析 3 жыл бұрын

tqdmのインポートの仕方が変わっているので、 zenn.dev/dijzpeb/books/848d4d8e47001193f3fb/viewer/471b66 を参考にインポートし直してみてください！ Index error: list index out of range がどの部分で起こっているかによるのですが、race_id_listが空になっていたりしませんか？

@RyoH-c4v 3 жыл бұрын

ご返信ありがとうございます！ブログのソースコードを参考にしてみたところ無事に実行されました！稚拙な文章による質問ながら丁寧な回答ありがとうございますこれからも動画見させて頂きます！

@itamaru_2727 4 жыл бұрын

はじめまして。非常にわかりやすい動画をありがとうございます。一点、クローリングでサイトを読み込む際に、何回読み込んでも300レコード近く動画よりも少なくなってしまいます。コードも動画の通りで、他の処理はなんら問題ございません。何か考えられる要因はありますでしょうか？

@競馬予想で始めるデータ分析 4 жыл бұрын

この動画を投稿した時点から結構時間が経つので、サイトの仕様が変わったりしたのかもしれません。 300レコードというのは、300レース分少ないということですか？それとも、300行少ないということですか？

@itamaru_2727 4 жыл бұрын

古い動画にコメント頂きありがとうございます。行数数が少ないです。動画内ですと3356行なのが、私の方では3188行になってしまいます。動画内で、インデックスの最後（29:51）は201910021012に対し、私の方では、201910020812となっております。原因追求のためソースコードを見返してみると、dayのfor文の回数が1-9まで、つまり1-8日目までとなっていると思います。（11:28付近）また、netkeibaページを見てみると、小倉競馬場などで開催日数が12日まであります。したがって、動画内のソースコードでは、全てが網羅できていないかと思います。また、動画内の最後のインデックス201910021012、この番号は取得できないと思うのですが、認識は合ってますでしょうか。もし、この認識が合っているのであれば、 for day in range(1,13,1)となると考えております。こちらのページも参考にしております。 www.jra.go.jp/datafile/seiseki/report/2019.html#pdf_sapporo

@itamaru_2727 4 жыл бұрын

失礼しました。レコード数の件は私の勘違いでした。レコード数ではなくレース数ですね。ただ、動画内と300レースの差が出てしまう原因は分かっておりません。もう少し試行錯誤してみます。

@競馬予想で始めるデータ分析 4 жыл бұрын

ごめんなさい、ややこしいことに、動画中では9日目までしかスクレイピングしていないのに対し、自分が持っているデータは13日目までスクレイピングしたもののようです！なので、指摘された通り、for day in range(1,13,1)にするば数が合うかなと思います。

@itamaru_2727 4 жыл бұрын

@@競馬予想で始めるデータ分析お返事頂き有難うございます。最近はこちらを参考に、自由に自分流に変更しながら試行錯誤してます。メンバーシップには入っておらず申し訳ないですが、いつもありがとうございます！

@Tokino_ 2 жыл бұрын

最新のレースリザルトだとread_htmlでindex errorが出ますね

@hokuto6454 4 жыл бұрын

Pythonを学び始めた者です。めちゃくちゃ面白かったです。

@ああ-r2z7p 3 жыл бұрын

お疲れ様です。データを引っ張ってくることは可能なのですが、read_htmlで整形がされません。文字列が出力されるのみで、表として出力されないです。何かアドバイス頂けると幸いです。

@競馬予想で始めるデータ分析 3 жыл бұрын

どのコードを実行した時のことでしょうか？

@深町将史 4 жыл бұрын

スクレイピングしたデータは別ファイルで保存しないと、jupyterを閉じたときに消えるのでしょうか。保存の仕方が間違っているのでしょうか。閉じてしまうと立ち上げたときにまたスクレイピングしないとデータが読み込めません。よろしければ教えてください。

@競馬予想で始めるデータ分析 4 жыл бұрын

pandasのto_pickleが便利です！(29:54〜)例えば、 results.to_pickle('results.pickle') とすると、results.pickleというファイルが作成されます。読み込むときは、 pd.read_pickle('results.pickle') とできます。

@深町将史 4 жыл бұрын

@@競馬予想で始めるデータ分析そんな便利なモジュールがあったんですね！ありがとうございます！

@こうゆう 3 жыл бұрын

スクレイピングを始めるのにどのような下準備をすればよいですか？

@競馬予想で始めるデータ分析 3 жыл бұрын

もしまだPythonのインストールなどをしていなかったら、まずはこちらの動画 kzbin.info/www/bejne/sJnVkICNm7-UnsU を参考に、環境構築をしてください！

@さひ-t6n 3 жыл бұрын

初心者ですみませんが、質問です。。 race id listをfor分で回すことまではできたのですが実際に実行すると x(children=(HTML(value=''), FloatProgress(value=0.0, max=4800.0), HTML(value=''))) と出てきました。エラーは起きてないと思うんですがどのような対処をしたら良いでしょうか？

@競馬予想で始めるデータ分析 3 жыл бұрын

実行環境はJupyterLabですか？

@有上氏 3 жыл бұрын

@@競馬予想で始めるデータ分析 JupyterLabです！

@競馬予想で始めるデータ分析 3 жыл бұрын

・まだipywidgetsを入れていなかったらこの動画 kzbin.info/www/bejne/sJnVkICNm7-UnsU を参考に入れてください・tqdmのインポート方法が動画の時と現在で異なります。 from tqdm.notebook import tqdm この2つでどうでしょう？

@有上氏 3 жыл бұрын

@@競馬予想で始めるデータ分析なんとか出来そうです！ありがとうございます！

@のらくろさんA 3 жыл бұрын

def scrape_race_results(race_id_list,pre_race_results={}):についての質問です。この関数のfor文内で、race_results[race_id]=pd.read_html(url)[0]でrace_resultsにデータが入っていくのはわかりますが、pre_race_resultsに代入する記述がないのにpre_race_resultsにデータが入るのが理解できません。 return race_resultsの前に、print(pre_race_results)とprint(race_results)を記述したところ、pre_race_resultsとrace_resultsに同じデータが入っていることは確認しました。分かる方、教えてください。よろしくお願いします。

@競馬予想で始めるデータ分析 3 жыл бұрын

実はrace_resultsを変更すると、pre_race_resultsにもデータが代入されるようになっています！これを回避するには、 race_results = pre_race_results を race_results = pre_race_results.copy() に変更してみてください。

@のらくろさんA 3 жыл бұрын

@@競馬予想で始めるデータ分析回答ありがとうございました。購入した電子版でコツコツと学習しています。

@競馬予想で始めるデータ分析 3 жыл бұрын

ご購入ありがとうございます！

@believe9452 4 жыл бұрын

pandasのスクレイピングの簡単さに感動しました今まで、RequestsとBeautiful Soupで頑張ってました....

@競馬予想で始めるデータ分析 4 жыл бұрын

read_html、すごい便利ですよね

@スーパーセクシーボーイ 3 жыл бұрын

すみません、質問させてください。実行したところ以下のエラーで止まります。＞urlopen error [WinError 10054] 既存の接続はリモートホストに強制的に切断されました。何回か試しましたが３０～５０％で止まります。 pd.read_pickleで確認したところ、止まるまではスクレイピングできているのは確認しています。何か対策などありますでしょうか。ソースコードは購入させていただいた本のコードをそのままコピペして実行しています。何分初心者なものですみません。

@競馬予想で始めるデータ分析 3 жыл бұрын

何かの原因で接続が切れるのは仕方がないので、途中のページからスクレイピングして最後につなぎ合わせましょう。（そのためにTry〜except文を入れているので） results.index.unique() でスクレイピングが完了している一番後ろのrace_idを確認して、例えばそれが10番目のrace_idだったら scrape_race_results(race_id_list[11:]) のようにすれば途中からスクレイピングできます。

@fumiyaokamura6767 3 жыл бұрын

突然すみません。 range()のカッコ内の数字が数字として読み込んでくれません。どうしてでしょうか。

@競馬予想で始めるデータ分析 3 жыл бұрын

実行したコードを教えてください！全角になっているのかもしれません。

@ちゃんこ-b3y 4 жыл бұрын

この方法で、もしurlがない場合スルーさせることは可能ですか

@競馬予想で始めるデータ分析 4 жыл бұрын

動画中、 except IndexError: continue で一応「urlがない場合、スルーさせる処理」をしていますが、これとは別の処理ですか？

@ちゃんこ-b3y 4 жыл бұрын

ありがとうございます！見落としてました！最近見始めました、これから全部見ていきます！

@AIxCE 4 жыл бұрын

圧倒的な実力ですね！！僕のAI関係のプレイリストに入れさせてもらいました＾＾

@okayasushinsuke2547 3 жыл бұрын

スクレイピング用のrace idのリストを作っていますが、競馬場のidなどどのように調べたのですか？一つづつホームページを開いて行って調べるのでしょうか？

@okayasushinsuke2547 3 жыл бұрын

idの仕組みなどホームページから読み解くのが大変だと思いますがどのようにしているのでしょうか？

@競馬予想で始めるデータ分析 3 жыл бұрын

一つずつ開いて調べます！動画のように、例えば「201901010101→201902010101に変えると、競馬場が変わる」などから判断します

@catpomu2816 4 жыл бұрын

こんにちは。スクレイピングで競馬新聞のような出馬表を作りかたをやってほしいです。過去の馬柱で過去走を何走分かを指定出来るような仕様で。例えば過去10走分とか、15走分など指定した分の馬柱の作成の仕方を教えてほしいです。

@競馬予想で始めるデータ分析 4 жыл бұрын

コメントありがとうございます。今日(3/21)公開予定の動画の次の動画で、過去走のデータをスクレイピングしてモデルに取り入れる予定なので、その時に解説したいと思います！

@はいす-t8k 4 жыл бұрын

2:01 どうやってln[]を消したんですか?

@競馬予想で始めるデータ分析 4 жыл бұрын

escを押したあとに、Mを押してMarkdownモードにしてます！

@はいす-t8k 4 жыл бұрын

@@競馬予想で始めるデータ分析ありがとうございます!

@pikatyu5302 3 жыл бұрын

3000ページ × 1文字

@atuki-cs4tq 4 жыл бұрын

何度もコメントすいませんプログレスバーが、100％の状態で動きません。100％　4800/4800【27:21

@競馬予想で始めるデータ分析 4 жыл бұрын

ご質問ありがとうございます！ scrape_race_resultsの結果を代入した変数には何が入っていますか？もし、何も入っていないようであれば、まずはtry文の中にprint(pd.read_html(url)[0])と記述して、この処理が上手くいっているかを確認してみてください。もしこれで何も出力されないようであれば、tryの中が実行されていないor上手くいっていないということなので、continueで飛ばされてしまっているか、何らかのエラーが発生している可能性があります。

@atuki-cs4tq 4 жыл бұрын

@@競馬予想で始めるデータ分析返信ありがとうございます！！と表示されました

@競馬予想で始めるデータ分析 4 жыл бұрын

最後のreturn race_resultsが抜けていたりはしませんか？

@atuki-cs4tq 4 жыл бұрын

@@競馬予想で始めるデータ分析 import time from tqdm.notebook import tqdm def scrape_race_results(race_id_list,pre_race_results={}): race_results=pre_race_results for race_id in tqdm(race_id_list): if race_id in race_results.keys(): continue try: print(pd.read_html(url)[0]) url = 'db.netkeiba.com/race/' + race_id race_results[race_id] = pd.read_html(url)[0] time.sleep(1) except: break return race_results returnはありますtqdmの読み込みを変えたら０％と表示されましたが、読み込みが開始されません何度もすいません、、、

@競馬予想で始めるデータ分析 4 жыл бұрын

読み込みが開始されないのはおそらくexceptのbreakが実行されたからだと思います。(notebookのセルの処理自体は終わっていませんか？）なので、一旦try~exceptを外すかあるいは、 except Exception as e: 　　print(e) 　　break としてエラーを表示させてみてください！