【15分で習得】PythonでPDF文字認識・抽出の実装をわかりやすく解説(日英対応)

  Рет қаралды 40,267

いまにゅのプログラミング塾

いまにゅのプログラミング塾

Күн бұрын

Пікірлер: 30
@kt8651
@kt8651 2 жыл бұрын
いつもありがとうございます。 色々参考にさせてもらっています。 今後もPythonについて発信をお願いします。
@supernature1577
@supernature1577 Жыл бұрын
ありがとうございます。😊 仕事に使えるか挑戦してみます。
@gunkokusakaba3406
@gunkokusakaba3406 3 жыл бұрын
今回も分かりやすい動画ありがとうございます! とても、勉強になりました!!
@imanyu_programming
@imanyu_programming 3 жыл бұрын
そのようにおっしゃっていただき非常に嬉しいです!!! こちらこそご視聴いただきありがとうございます!!!!!!
@freestylekayaker9825
@freestylekayaker9825 3 жыл бұрын
毎回、解り易くて良いですね。 楽しみにしています。
@imanyu_programming
@imanyu_programming 3 жыл бұрын
そのように言っていただき非常に嬉しいです!! ありがとうございます!!
@ハムスターハムスター-b2h
@ハムスターハムスター-b2h 2 жыл бұрын
すごく丁寧で分かりやすいです!!! 他のpython動画もたくさん参考にさせていただいてます~💛☆
@imanyu_programming
@imanyu_programming 2 жыл бұрын
ありがとうございます!!😆
@ちはや-g9n
@ちはや-g9n 3 жыл бұрын
Python初心者です! とても素晴らしい動画をありがとうございます!実際に言われた通りしてみたらPDFのテキスト化が自分にもできました!そこで質問なのですが、テキスト化できた結果をテキストマイニングするにはどのようにしたら良いのでしょうか?いまにゅさんのどの動画を見れば良いのでしょうか?
@55bonbon54
@55bonbon54 2 жыл бұрын
非常にわかりやすい説明ですね!  ちょっとご質問よろしいでしょうか。 業務で図面というものを使用しています。その中にCAD寸法というものが表記されています。例えば幅5.000・R3.000・φ4.530 等々です。ちなみに手書きの①②•••のようなナンバーも含まれています。 手書きとCAD文字が混在していますが、このようなPDFから数値やR・φ・手書き数値(①②・・・)は抽出できるのでしょうか? 基本的な知識に乏しく、何かヒントをいただけると助かります。 宜しくお願い申し上げます。
@pichi3687
@pichi3687 3 жыл бұрын
すごいですね!Pythonってなんでもできるんですね!(機械学習でR使ってましたが、Pythonも機械学習に優れていると聞き去年からPythonも学び始めました。機械学習以外の用途も多くて驚いてます)
@imanyu_programming
@imanyu_programming 3 жыл бұрын
コメントありがとうございます!! RとPythonの大きな違いはこの汎用性です、、、 なんでもできます!笑
@ずぼら-w5n
@ずぼら-w5n Жыл бұрын
gcpのvision apiと比較して、どちらが精度が高いですかね?
@PON-do9fo
@PON-do9fo 3 жыл бұрын
参考になる動画をありがとうございます。 10:40秒の時点で同じコードのはずなのにPDFを読み取れず「Python」とのみ表示されます…。 少ない情報で恐縮ですが、この時点でわかる解決方法がございましたら教えていただけないでしょうか…。
@PON-do9fo
@PON-do9fo 3 жыл бұрын
参考になる動画をありがとうございます。 どうやら「!python3 pdf2……」やネコ画像収集の際の「!zip - .......」の「!」のせいで思うようにいかないかもしれません。この「!」は何を表しているのですか?教えていただけますと幸いです。
@keikei3163
@keikei3163 3 жыл бұрын
私も同じ現象になりました。python3の3をつけないで実行してみたら成功しました。
@PON-do9fo
@PON-do9fo 3 жыл бұрын
@@keikei3163 ありがとうございます!私も試してみます!
@akktat2
@akktat2 3 жыл бұрын
これはOCRが出来るモジュールではないのですね。PDF2ImageとPyOCRの組み合わせが必要なのでしょうね。
@俊老師
@俊老師 3 жыл бұрын
いつも非常に有益な情報有難う御座います。PDFやweb上からデイリーで数値データを取得し、既存のエクセルデータの表に追加していた業務をしておりますので、早速業務レベルで実装したく思っております。 今回の講座でご教示頂いたPDFデータを読み取って、その内容の一部データを取得することはできたのですが、既存のexcelの表に、それを自動転記する方法をご教示頂きたいです。pandasを利用して、既存excelの表を読み込み、それに新規データを追加して再度Excelに吐き出すのがいいでしょうか。よりスマートな方法があればご教示頂けると幸いです。
@imanyu_programming
@imanyu_programming 3 жыл бұрын
コメントありがとうございます!!! はい、下記のやり方が良いと思います!! >pandasを利用して、既存excelの表を読み込み、それに新規データを追加して再度Excelに吐き出すのがいいでしょうか。
@hiromotsu5949
@hiromotsu5949 3 жыл бұрын
いつもありがとうございます! 参考にさせていただいています! 普通の文字に対しては、読み込むことができるのですが、PDF中に数式や行列などが出てくると”UnicodeEncodeError”が出てしまうのですが、対処法などあれば教えて頂きたいです。 もしない場合、エラーをとばして、その続きから読み込みを行うことは可能なのでしょうか。 もしよろしければ返信お願い致します。
@youchan728
@youchan728 3 жыл бұрын
分かり易すぎます!!! 簡単に実装できました!ありがとうございます😭 ちなみに、抽出したテキストをPDFファイルに埋め込むことも出来たりするんですか???
@imanyu_programming
@imanyu_programming 3 жыл бұрын
そのようにおっしゃっていただき非常に嬉しいです!! ちょい面倒ですが、この辺り使えばできると思います! qiita.com/mototoke/items/7fc4c65305c4180521e4
@youchan728
@youchan728 3 жыл бұрын
@@imanyu_programming ありがとうございます😊 試してみます!
@kt8651
@kt8651 2 жыл бұрын
先程投稿したものです。実行すると「python3: can't open file 'pdf2txt.py': [Errno 2] No such file or directory」とエラー表示されます。データのアップロード先はどこにすればよいか、ご教示願います。何分Pythonの初心者ですので・・・・
@toshishibuya5384
@toshishibuya5384 3 жыл бұрын
本チャンネルを知り勉強させて頂いております。 VSCodeで用いているのですが、10:00秒からのpdfminerを用いたところから、動画通り行えませんでした。 この場合、どのように行えば良いのでしょうか? お時間がありましたら、ご返信頂ければ幸いです。
@kt8651
@kt8651 2 жыл бұрын
ググってアップロードできました。お騒がせしました。
@てんまるチャンネル
@てんまるチャンネル Жыл бұрын
どなたか以下エラー文の解決方法を教えてください。。 Traceback (most recent call last): File "/Users/miuraryogo/ocr-test/pdf2txt.py", line 8, in import pdfminer.high_level ModuleNotFoundError: No module named 'pdfminer'
@坂本かな-o3p
@坂本かな-o3p Жыл бұрын
もう解決されているかもですが、module not found errorは読み込んだモジュールが見つからない時にでます パワーシェルでpip list とコマンドを入力するとインストールされている外部ライブラリの一覧が表示されますので、てんまるさんの場合はpdfminerがリストに載っているか確認してみてください 私もたまにやらかしますが、似たような名前の別のライブラリインストールしていたりとかかもしれません
【30分で習得】PythonでOCR(光学文字認識)の実装をわかりやすく解説
29:09
いまにゅのプログラミング塾
Рет қаралды 63 М.
Cheerleader Transformation That Left Everyone Speechless! #shorts
00:27
Fabiosa Best Lifehacks
Рет қаралды 8 МЛН
Чистка воды совком от денег
00:32
FD Vasya
Рет қаралды 5 МЛН
Quilt Challenge, No Skills, Just Luck#Funnyfamily #Partygames #Funny
00:32
Family Games Media
Рет қаралды 46 МЛН
Don't underestimate anyone
00:47
奇軒Tricking
Рет қаралды 29 МЛН
【たったの数行!】PDFから表データを一瞬で抽出する方法
12:47
いまにゅのプログラミング塾
Рет қаралды 24 М.
【Pythonで自動化】コピペしていない?大量PDFからテキスト情報を一瞬で取得
9:01
キノコード / プログラミング学習チャンネル
Рет қаралды 25 М.
【Python×自動化】PyAutoGUIを用いてPC操作の自動化方法を40分でわかりやすく解説!
38:17
Pythonで面倒なExcelの仕事を自動化しよう( 第一弾 )|一瞬で仕事がおわるプログラミング活用術
26:58
キノコード / プログラミング学習チャンネル
Рет қаралды 742 М.
Cheerleader Transformation That Left Everyone Speechless! #shorts
00:27
Fabiosa Best Lifehacks
Рет қаралды 8 МЛН