Extração de dados em arquivo PDF com Python

  Рет қаралды 15,006

F3Loc

F3Loc

Күн бұрын

Пікірлер: 45
@yibambe148
@yibambe148 9 күн бұрын
Muito bem explicdo, parabens
@CARIOCAJJ36
@CARIOCAJJ36 10 күн бұрын
Excelente aula
@polyanameireles2923
@polyanameireles2923 7 ай бұрын
Eu consigo extrair dados especificos de um pdf e organizar como eu quiser em uma planilha de excel automaticamente com o PHYTON?
@JoaoSantos-jb7ul
@JoaoSantos-jb7ul 18 күн бұрын
Excelente conteúdo, obrigado!
@ernestomge
@ernestomge Жыл бұрын
Seu conteúdo é excelente. Muito didático e prático. Me ajudou demais. Parabéns!
@f3loc451
@f3loc451 Жыл бұрын
Fico muito feliz em ter ajudado Ernesto!!
@t4blitoMax
@t4blitoMax 7 ай бұрын
Excelente vídeo. Muito obrigado!
@stisampaio
@stisampaio 10 ай бұрын
Excelente explicação. Parabéns.
@rodrigomelo1306
@rodrigomelo1306 Жыл бұрын
Massa demais. Obrigado pela dica Fernanda
@marcoswagnermainieri4794
@marcoswagnermainieri4794 Жыл бұрын
Não conhecia a lib tabula. Muito bom.
@janworld1
@janworld1 7 ай бұрын
muito bacana. Vou testar aqui e assistir outras aulas suas
@MatheusSaito-v3c
@MatheusSaito-v3c 10 ай бұрын
Obrigado pelo conteudo, vai ajudar muito.
@root1174
@root1174 10 ай бұрын
e pago adianta de nada
@rafapioli75
@rafapioli75 7 ай бұрын
Excelente conteúdo! Parabéns pela iniciativa!
@josinaldoaraujo3047
@josinaldoaraujo3047 Жыл бұрын
Show de bola!!! Parabéns, sem enrolação nem indução ao erro como alguns vídeos que tem por aí. Já vi vários vídeos que só dão erro, mas agora deu certo! Obrigado! Vou fazer vários testes, qualquer coisa volta aqui pra tirar dúvidas, pode ser?
@mathewsrodrigues
@mathewsrodrigues Жыл бұрын
Muito bom! Excelente didática!!
@lorrangomes8076
@lorrangomes8076 8 ай бұрын
Parabéns
@jonathanjesua1004
@jonathanjesua1004 Жыл бұрын
Sucesso! 🍀
@valmirrastelyjunior9400
@valmirrastelyjunior9400 11 ай бұрын
Excelente
@elizabethregina1460
@elizabethregina1460 Жыл бұрын
Muito bom!!!
@nubiamaria9864
@nubiamaria9864 5 ай бұрын
Onde os arquivos estavam armazenados, para entender era esses arquivos?
@henriquemiranda4299
@henriquemiranda4299 8 ай бұрын
Muito boa explicação. Porem aparece o seguinte erro para mim na parte das tabelas. AttributeError: module 'tabula' has no attribute 'read_pdf'
@eduardolessa5140
@eduardolessa5140 2 ай бұрын
Bom dia! Eu consigo visualizar tabelas especificas, por exemplo, suponhamos que tenha 6 tabelas no documento, porém, só quero visualizar as tabelas 1, 3 e 5, como fazer:?
@lourenzitt
@lourenzitt Жыл бұрын
Boa noite! Primeiramente seu conteúdo é um dos melhores que já vi sobre extração de dados em PDF! Eu usava um loop diferente do seu para extrair várias páginas, mas sua forma ficou mais otimizada, parabéns! Mas, gostaria de pedir uma ajuda, eu estou extraindo dados de um PDF com 13 mil páginas, estou convertendo em .TXT para poder dizer "qual linha eu quero extrair" especificamente. Contudo, pelo LOOP ele vai gerar 13 mil arquivos de .TXT. Como eu faria para tudo isso ficar em apenas um arquivo? Muito obrigado!
@f3loc451
@f3loc451 Жыл бұрын
Olá, você pode criar um arquivo .txt único, percorrer todas as páginas do PDF, extrair os dados e escrevê-los no arquivo .txt único, vou colocar um exemplo de código aqui, espero que ajude: from PyPDF2 import PdfReader # Caminho para o arquivo PDF pdf_path = 'caminho_para_o_seu_arquivo.pdf' # Caminho para o arquivo de saída .txt output_txt_path = 'dados_extraidos.txt' # Inicializa o arquivo de saída with open(output_txt_path, 'w', encoding='utf-8') as output_file: pdf = PdfReader(pdf_path) # Percorre todas as páginas do PDF for page_num in range(len(pdf.pages)): page = pdf.pages[page_num] # Extrai o texto da página atual page_text = page.extract_text() # Escreve o texto da página no arquivo de saída output_file.write(page_text) print("Extração concluída e escrita no arquivo", output_txt_path)
@andreclash8010
@andreclash8010 Жыл бұрын
​@@f3loc451, boa noite, tudo bem? É possível criar uma calculadora para ler notas de corretagem e gerar preço médio? Obrigado.
@f3loc451
@f3loc451 Жыл бұрын
@@andreclash8010 sim, é possível
@andreclash8010
@andreclash8010 Жыл бұрын
@@f3loc451 , estou tentando fazer algo do tipo: durante 12 meses foram geradas diversas notas fiscais , gostaria de saber se é possível extrair apenas o Item "PARAFUSO" durante esses 12 meses e calcular o preço médio
@CalebeTutogames
@CalebeTutogames 11 ай бұрын
@@andreclash8010 Conseguiu??
@kevinhoglass
@kevinhoglass 8 ай бұрын
Eu tenho um pdf com um monte de processos. Gostaria de saber como eu faria uma filtragem e/ou extração de todos esses numeros de processos. Eles possuem uma sequencia numerica de 20 caraacteres. Ai depois dessa extração gostaria de passar para um excel. Mas se alguem puder me ajudar só de passar todos esses processos em um txt ja seria otimo.
@ValterRodrigues
@ValterRodrigues 9 ай бұрын
Olá. E como fazer para extrair um nome de pessoa e filiação, por exemplo. Imagine fazer isso de um artigo científico. Como seria o código?
@nelson8483
@nelson8483 7 ай бұрын
tem como fazer isso com o pycharm? estou querendo fazer um trabalho assim: tenho uma apostila de 3k paginas, com vários códigos de falhas tipo F07900 eu quero que o programa diga entre com o numero da falha : o usuário entra com a falha EX:F07900 o programa vai no pdf e busca a falha e retorno com o enunciado da falha e sua solução. qual o problema que estou enfrentando, meu programa não busca as falhas em meu computador minha pergunta. teria como carregar a apostila direto no codigo ou de outra forma pra ele fazer isso?
@jonatapaulino
@jonatapaulino 7 ай бұрын
E quando o pdf não for tipo uma tabela, agente tem que usar o regex pra formatar? Parabéns pelo vídeo.
@rodrigomelo1306
@rodrigomelo1306 Жыл бұрын
Sugestão de conteúdo. Extração de tabelas com imagens (pode ser um print) de uma página HTML local. Exemplo: Suponha que tenho um relatório em que exporto em HTML as informações do sistema e ao clicar no index.html aparece informações como este PDF de vendas. Como eu faria para tirar um print (pa obter as figuras também) e/ou extrair as tabelas como foi feito no exemplo do PDF ? Abração e parabéns pelo conteúdo.
@f3loc451
@f3loc451 Жыл бұрын
Oi Rodrigo, para extrair tabelas de um arquivo html você pode utilizar o método read_html() do pandas, ele faz justamente isso, lê uma ou mais tabelas de uma página html e as retorna como um ou mais objetos Dataframe do pandas
@MariaSantos-nh9xb
@MariaSantos-nh9xb 11 ай бұрын
Não percebo muito de programação. Tem como organizar o texto extraido, no sentido de retirar os paragrafos que cria e espaçamentos?
@f3loc451
@f3loc451 11 ай бұрын
Tem sim, utilizando técnicas de NLP( Processamento de Linguagem Natural)
@ReginaldoGomesify
@ReginaldoGomesify Жыл бұрын
Olá, pode me ajudar, meu arquivo está nesse caminho=> with open('D:\Cursos\Python\LerPDF/arquivo1.pdf','rb') as file: mas não consigo abrir, já mudei o caminho e nada sempre da erro no pdf_reader
@f3loc451
@f3loc451 Жыл бұрын
Oi Reginaldo, podes mandar print do código com o erro?
@jalzeriofigueira2929
@jalzeriofigueira2929 5 ай бұрын
" ASPAS DUPLAS AO INVÉS DE '
@todoosdiastemteclado2106
@todoosdiastemteclado2106 Жыл бұрын
Vou começar do zero. Onde baixo esse programa?
@f3loc451
@f3loc451 Жыл бұрын
Você pode baixar o Python nesse link: www.python.org/downloads/ Ou utilizar o Google colab que é On-line e na nuvem.
@franciscocarvalho8540
@franciscocarvalho8540 11 ай бұрын
Não consigo rodar o código, pois, apresenta a seguinte mensagem de erro: NameError: name 'PdfReader' is not defined
@f3loc451
@f3loc451 11 ай бұрын
O erro tá indicando que você não definiu a variável PdfReader, dá uma olhada no teu código novamente, provavelmente não está igual o meu Francisco
@franciscocarvalho8540
@franciscocarvalho8540 11 ай бұрын
@@f3loc451 Está tudo certinho com o código. Na realidade, acontece erro, quando tento rodar o código, nos dois exemplos que você postou. Veja abaixo: Exemplo 1 (texto) with open("nfe.pdf", 'rb') as pdf_file: pdf_reader = PdfReader(pdf_file) num_pages = len(pdf_reader.pages) for page_num in range(num_pages): page = pdf_reader.pages[page_num] text = page.extract_text() print(text) ______________________________________________________________________________ NameError Tracebak (most recente call last) Cell In[1], line 2 1 with open("nfe.pdf", 'rb') as pdf_file: 2 pdf_reader = PdfReader(pdf_file) 4 num_pages = len(pdf_reader.pages) 6 for page_num in range(num_pages): NameError: name 'PdfReader' is not defined Exemplo 2 (tabela) pdf_path = "nfe.pdf" tabelas = tabula.read_pdf(pdf_path, pages="all") _______________________________________________________________________________ NameError Tracebak (most recente call last) Cell In[1], line 3 1 pdf_path = "nfe.pdf" 3 tabelas = tabula.read_pdf(pdf_path, pages="all") NameError: name 'tabula' is not defined
黑天使只对C罗有感觉#short #angel #clown
00:39
Super Beauty team
Рет қаралды 19 МЛН
Lamborghini vs Smoke 😱
00:38
Topper Guild
Рет қаралды 56 МЛН
ТВОИ РОДИТЕЛИ И ЧЕЛОВЕК ПАУК 😂#shorts
00:59
BATEK_OFFICIAL
Рет қаралды 7 МЛН
Миллионер | 3 - серия
36:09
Million Show
Рет қаралды 2,2 МЛН
Power Automate Desktop   Extraindo dados de um arquivo PDF
4:10
Dicas de Tecnologia
Рет қаралды 9 М.
UM DIA NA ROTINA DE UM ANALISTA DE DADOS DO GLOBOPLAY.
18:12
Felipe Manso
Рет қаралды 2,8 М.
Como Ler Tabelas em PDF Usando o Python [Extrair Tabelas de um Arquivo PDF]
27:32
Como AUTOMATIZAR Planilhas EXCEL com PYTHON
55:38
Asimov Academy
Рет қаралды 9 М.
Como Ler Informações de Vários PDFs pelo VBA com ou sem Tabelas
28:56
Hashtag Treinamentos
Рет қаралды 16 М.
Como extrair QUALQUER informação de um PDF com o PYTHON em SEGUNDOS!
7:51
Brenno Sullivan - VAROS Quant
Рет қаралды 6 М.
Python RAG Tutorial (with Local LLMs): AI For Your PDFs
21:33
pixegami
Рет қаралды 312 М.
黑天使只对C罗有感觉#short #angel #clown
00:39
Super Beauty team
Рет қаралды 19 МЛН