【15分で習得】PythonでPDF文字認識・抽出の実装をわかりやすく解説(日英対応)

  Рет қаралды 40,132

いまにゅのプログラミング塾

いまにゅのプログラミング塾

Күн бұрын

Пікірлер: 30
@kt8651
@kt8651 2 жыл бұрын
いつもありがとうございます。 色々参考にさせてもらっています。 今後もPythonについて発信をお願いします。
@supernature1577
@supernature1577 Жыл бұрын
ありがとうございます。😊 仕事に使えるか挑戦してみます。
@ハムスターハムスター-b2h
@ハムスターハムスター-b2h 2 жыл бұрын
すごく丁寧で分かりやすいです!!! 他のpython動画もたくさん参考にさせていただいてます~💛☆
@imanyu_programming
@imanyu_programming 2 жыл бұрын
ありがとうございます!!😆
@gunkokusakaba3406
@gunkokusakaba3406 3 жыл бұрын
今回も分かりやすい動画ありがとうございます! とても、勉強になりました!!
@imanyu_programming
@imanyu_programming 3 жыл бұрын
そのようにおっしゃっていただき非常に嬉しいです!!! こちらこそご視聴いただきありがとうございます!!!!!!
@freestylekayaker9825
@freestylekayaker9825 3 жыл бұрын
毎回、解り易くて良いですね。 楽しみにしています。
@imanyu_programming
@imanyu_programming 3 жыл бұрын
そのように言っていただき非常に嬉しいです!! ありがとうございます!!
@ちはや-g9n
@ちはや-g9n 3 жыл бұрын
Python初心者です! とても素晴らしい動画をありがとうございます!実際に言われた通りしてみたらPDFのテキスト化が自分にもできました!そこで質問なのですが、テキスト化できた結果をテキストマイニングするにはどのようにしたら良いのでしょうか?いまにゅさんのどの動画を見れば良いのでしょうか?
@55bonbon54
@55bonbon54 2 жыл бұрын
非常にわかりやすい説明ですね!  ちょっとご質問よろしいでしょうか。 業務で図面というものを使用しています。その中にCAD寸法というものが表記されています。例えば幅5.000・R3.000・φ4.530 等々です。ちなみに手書きの①②•••のようなナンバーも含まれています。 手書きとCAD文字が混在していますが、このようなPDFから数値やR・φ・手書き数値(①②・・・)は抽出できるのでしょうか? 基本的な知識に乏しく、何かヒントをいただけると助かります。 宜しくお願い申し上げます。
@pichi3687
@pichi3687 3 жыл бұрын
すごいですね!Pythonってなんでもできるんですね!(機械学習でR使ってましたが、Pythonも機械学習に優れていると聞き去年からPythonも学び始めました。機械学習以外の用途も多くて驚いてます)
@imanyu_programming
@imanyu_programming 3 жыл бұрын
コメントありがとうございます!! RとPythonの大きな違いはこの汎用性です、、、 なんでもできます!笑
@akktat2
@akktat2 3 жыл бұрын
これはOCRが出来るモジュールではないのですね。PDF2ImageとPyOCRの組み合わせが必要なのでしょうね。
@ずぼら-w5n
@ずぼら-w5n Жыл бұрын
gcpのvision apiと比較して、どちらが精度が高いですかね?
@俊老師
@俊老師 3 жыл бұрын
いつも非常に有益な情報有難う御座います。PDFやweb上からデイリーで数値データを取得し、既存のエクセルデータの表に追加していた業務をしておりますので、早速業務レベルで実装したく思っております。 今回の講座でご教示頂いたPDFデータを読み取って、その内容の一部データを取得することはできたのですが、既存のexcelの表に、それを自動転記する方法をご教示頂きたいです。pandasを利用して、既存excelの表を読み込み、それに新規データを追加して再度Excelに吐き出すのがいいでしょうか。よりスマートな方法があればご教示頂けると幸いです。
@imanyu_programming
@imanyu_programming 3 жыл бұрын
コメントありがとうございます!!! はい、下記のやり方が良いと思います!! >pandasを利用して、既存excelの表を読み込み、それに新規データを追加して再度Excelに吐き出すのがいいでしょうか。
@PON-do9fo
@PON-do9fo 3 жыл бұрын
参考になる動画をありがとうございます。 10:40秒の時点で同じコードのはずなのにPDFを読み取れず「Python」とのみ表示されます…。 少ない情報で恐縮ですが、この時点でわかる解決方法がございましたら教えていただけないでしょうか…。
@PON-do9fo
@PON-do9fo 3 жыл бұрын
参考になる動画をありがとうございます。 どうやら「!python3 pdf2……」やネコ画像収集の際の「!zip - .......」の「!」のせいで思うようにいかないかもしれません。この「!」は何を表しているのですか?教えていただけますと幸いです。
@keikei3163
@keikei3163 3 жыл бұрын
私も同じ現象になりました。python3の3をつけないで実行してみたら成功しました。
@PON-do9fo
@PON-do9fo 3 жыл бұрын
@@keikei3163 ありがとうございます!私も試してみます!
@hiromotsu5949
@hiromotsu5949 3 жыл бұрын
いつもありがとうございます! 参考にさせていただいています! 普通の文字に対しては、読み込むことができるのですが、PDF中に数式や行列などが出てくると”UnicodeEncodeError”が出てしまうのですが、対処法などあれば教えて頂きたいです。 もしない場合、エラーをとばして、その続きから読み込みを行うことは可能なのでしょうか。 もしよろしければ返信お願い致します。
@kt8651
@kt8651 2 жыл бұрын
先程投稿したものです。実行すると「python3: can't open file 'pdf2txt.py': [Errno 2] No such file or directory」とエラー表示されます。データのアップロード先はどこにすればよいか、ご教示願います。何分Pythonの初心者ですので・・・・
@youchan728
@youchan728 3 жыл бұрын
分かり易すぎます!!! 簡単に実装できました!ありがとうございます😭 ちなみに、抽出したテキストをPDFファイルに埋め込むことも出来たりするんですか???
@imanyu_programming
@imanyu_programming 3 жыл бұрын
そのようにおっしゃっていただき非常に嬉しいです!! ちょい面倒ですが、この辺り使えばできると思います! qiita.com/mototoke/items/7fc4c65305c4180521e4
@youchan728
@youchan728 3 жыл бұрын
@@imanyu_programming ありがとうございます😊 試してみます!
@kt8651
@kt8651 2 жыл бұрын
ググってアップロードできました。お騒がせしました。
@toshishibuya5384
@toshishibuya5384 3 жыл бұрын
本チャンネルを知り勉強させて頂いております。 VSCodeで用いているのですが、10:00秒からのpdfminerを用いたところから、動画通り行えませんでした。 この場合、どのように行えば良いのでしょうか? お時間がありましたら、ご返信頂ければ幸いです。
@てんまるチャンネル
@てんまるチャンネル Жыл бұрын
どなたか以下エラー文の解決方法を教えてください。。 Traceback (most recent call last): File "/Users/miuraryogo/ocr-test/pdf2txt.py", line 8, in import pdfminer.high_level ModuleNotFoundError: No module named 'pdfminer'
@坂本かな-o3p
@坂本かな-o3p Жыл бұрын
もう解決されているかもですが、module not found errorは読み込んだモジュールが見つからない時にでます パワーシェルでpip list とコマンドを入力するとインストールされている外部ライブラリの一覧が表示されますので、てんまるさんの場合はpdfminerがリストに載っているか確認してみてください 私もたまにやらかしますが、似たような名前の別のライブラリインストールしていたりとかかもしれません
【30分で習得】PythonでOCR(光学文字認識)の実装をわかりやすく解説
29:09
いまにゅのプログラミング塾
Рет қаралды 62 М.
World’s strongest WOMAN vs regular GIRLS
00:56
A4
Рет қаралды 46 МЛН
快乐总是短暂的!😂 #搞笑夫妻 #爱美食爱生活 #搞笑达人
00:14
朱大帅and依美姐
Рет қаралды 11 МЛН
Ice Cream or Surprise Trip Around the World?
00:31
Hungry FAM
Рет қаралды 19 МЛН
The Singing Challenge #joker #Harriet Quinn
00:35
佐助与鸣人
Рет қаралды 40 МЛН
【Pythonで自動化】コピペしていない?大量PDFからテキスト情報を一瞬で取得
9:01
キノコード / プログラミング学習チャンネル
Рет қаралды 25 М.
【Pythonで画像加工】OpenCVの基本を解説!〜 プログラミング初心者 向け 〜
16:41
Pythonプログラミング VTuber サプー
Рет қаралды 52 М.
Selenium(Python)によるWebスクレイピング実装10問
37:21
いまにゅのプログラミング塾
Рет қаралды 37 М.
【Python×自動化】PyAutoGUIを用いてPC操作の自動化方法を40分でわかりやすく解説!
38:17
World’s strongest WOMAN vs regular GIRLS
00:56
A4
Рет қаралды 46 МЛН