COMO FAZER JOINS CORRETAMENTE NO PENTAHO DATA INTEGRATION (PDI)

  Рет қаралды 6,633

Comunidados

Comunidados

Күн бұрын

👇 LEIA A DESCRIÇÃO 👇
✅ APRENDA A IMPLEMENTAR UMA SOLUÇÃO DE BUSINESS INTELLIGENCE COM PENTAHO DO ABSOLUTO ZERO:
comunidados.club
HEY, HEY, HEY.
Pessoal, no vídeo de hoje conto sobre um caso muito interessante de um erro que identifiquei em uma transformação no PDI em uma postagem no LINKEDIN.
O processo de ETL, SEM DÚVIDA NENHUMA, é o processo mais importante e sensível em qualquer projeto que envolva dados.
E qualquer erro relacionado á integridade de dados nesse processo pode levar a empresa a perder de milhares a milhões de reais. E eu te garanto, que se isso acontecer, cabeças vão rolar! HAHAHA.
No vídeo mostro como fazer um JOIN corretamente utilizando a ferramenta Pentaho Data Integration, mais conhecida como PDI.
O link da publicação do Thiago que idealizou este vídeo segue abaixo::
/ prof-thiago-viana_bi-p...
#pdi #join #sql #pentaho #pentahodataintegration #bi #businessintelligence #etl
PARA ACOMPANHAR NOSSO DIA A DIA E MAIS CONTEÚDOS:
INSTAGRAM
/ jonathan.pendata
/ leonardo.pendata
FACEBOOK
/ pendataanalysis
BLOG
www.pendata.com.br
LINKEDIN
JONATHAN
/ jonathandantaschagas
LEONARDO
/ leonardo-g-99b693b3

Пікірлер: 64
@valtersantosdesouza8586
@valtersantosdesouza8586 2 жыл бұрын
Ótimo video eu quando uso tabela não uso o sort rows faço o order by no select do Table input, testei algumas vezes e vi que consome menos memória, apesar do sort rows a gente também poder colocar a qtd de memória que queremos usar.
@Comunidados
@Comunidados 2 жыл бұрын
Ótima sugestão, Valter.
@edudad
@edudad 2 жыл бұрын
Me salvou, estava fazendo o merge e não ia os campos, depois do Sort funcionou 100%, nunca imaginei que isso poderia ser o erro
@Comunidados
@Comunidados 2 жыл бұрын
Fico feliz em saber disso, Eduardo. #tmj
@qwertykeyboard123
@qwertykeyboard123 Жыл бұрын
Muito bom
@gugoanx
@gugoanx 3 жыл бұрын
Top bro! Aprendi que deveria usar SORT mas não sabia o detalhe do motivo.
@Comunidados
@Comunidados 3 жыл бұрын
A ideia dos vídeos além de mostrar o como, é mostrar o porquê! Fico feliz que tenha ajudado! :D
@danilomthdev
@danilomthdev 2 жыл бұрын
Muito boa sua didática, Parabéns!
@Comunidados
@Comunidados 2 жыл бұрын
Obrigado 😃
@RobertoNicolau-wx1th
@RobertoNicolau-wx1th Жыл бұрын
[Fev-2023] ajudou demais!
@juaneduardomaldonado
@juaneduardomaldonado 3 жыл бұрын
ótimo exemplo, parabéns! Só acrescento que : Uma coisa importante que pouca gente sabe é que o sort faz a ordenação em memória e dependendo da quantidade de dados pode prejudicar o desempenho do servidor. Por isso o próprio step tem a opção de alterar esse recurso para disco. Não seria ideal incluir mais um sort antes do group by para não dar problemas?
@Comunidados
@Comunidados 3 жыл бұрын
Ótima observação Juan. Estou preparando um curso Free de todos os steps do PDI, por isso não dei esse spoiler, haha. Neste caso não é necessário, pois os dados foram ordenados antes do JOIN, e não houve nenhuma alteração entre o Merge Join e o Group By.. Em projetos reais eu costumo ordenar para garantir,. e também tratar os campos que estou agrupando, como deixar tudo em minúsculo (lower) e remover espaços nas strings (trim). Em projetos com uma grande quantidade de dados, Big Data, é ideal realizar a operação em disco, demora um pouco mais, mas não ocorrerá estou de memória.
@ottoraphael1597
@ottoraphael1597 2 жыл бұрын
Vlww vc é brabo
@Comunidados
@Comunidados 2 жыл бұрын
Valeu, Otto.
@LuizGustavo-km1yb
@LuizGustavo-km1yb 3 жыл бұрын
Muito bom, parabéns! Só fico sempre na dúvida quando necessito realizar joins de mais tabelas e campos diferentes e acabei optando em utilizar stream lookup.
@Comunidados
@Comunidados 3 жыл бұрын
Ótimo ponto Luiz. Vamos abordar essas diferenças, vantagens e desvantagens em um vídeo. Grande abraço
@vicente9614
@vicente9614 3 жыл бұрын
Ótimo vídeo! Se possível, aumente o fonte da tela, pois quando é assistido pela TV fica muito menor.
@Comunidados
@Comunidados 3 жыл бұрын
Obrigado pelo Feedback positivo e pela crítica construtiva, Vicente. Nos vídeos mais recentes já realizamos esse ajuste. :D
@janeilsonsousa9508
@janeilsonsousa9508 3 жыл бұрын
Parabéns pela aula, sua didatica é muito precisa. Você tem algum curso, se sim, por favor poste o link.
@Comunidados
@Comunidados 3 жыл бұрын
Fala, Janeilson. Muito obrigado pelo elogio. Temos sim. As inscrições irão abrir novamente em breve. Para acessar a grade do curso, e se inscrever em nossa lista de espera, pode entrar nesse link: jornadaanalitica.pendata.com.br/
9 ай бұрын
Seria a mesma coisa do que você ordenar via SQL mesmo? order by x asc nas duas fontes de dados, sem precisas do step merge join
@jorgenelsonoddone3809
@jorgenelsonoddone3809 3 жыл бұрын
Minha pergunta anterior foi porque estamos começando a analisar se adotamos o Pentaho e uma das dúvidas é o que fazer dentro do Pentaho ou no banco. Nossas tabelas são muito grandes. As de fato mais de 1 bilhão de linhas e as dimensões grandes com milhões. Agradeceria se você pudesse indicar material sobre tratar grandes volumes. Nosso banco DW é o Db2.
@Comunidados
@Comunidados 3 жыл бұрын
Embora tenha muitos dados, acredito que esse cenário seja os seus dados legados certo? Se esse for o caso levaria um pouco mais de tempo para fazer a carga full, e as demais serão mais rápidas, devido o janelamento (d-1, m-1, etc).
@marcelofeliciani
@marcelofeliciani 3 жыл бұрын
Ótimo conteúdo! Deve fazer aquele curso pela Udemy, tem grande didática.
@Comunidados
@Comunidados 3 жыл бұрын
Muito obrigado pelo elogio Marcelo. Em breve trarei novidades :D
@lucielbonella9231
@lucielbonella9231 3 жыл бұрын
Boa noite. Conteúdo de qualidade. Só gostaria que falasse um pouco sobre a diferença entre usar ou não o sort rows. Abraço.
@Comunidados
@Comunidados 3 жыл бұрын
Fala Luciel. Se você não utilizar o sort rows o relacionamento será realizado errado, pela forma como o PDI faz os joins, se faz necessário o uso do Sort rows para relacionar duas bases de dados.
@lucielbonella9231
@lucielbonella9231 3 жыл бұрын
@@Comunidados joia. Eu fiz um teste e vi a velocidade que ele faz e retorna os resultados. Incrível.
@Comunidados
@Comunidados 3 жыл бұрын
Boa. É Sim, realmente muito rápido. Isso graças a forma como ele faz a verificação das chaves na montagem do Join.
@raul.longhi
@raul.longhi 3 жыл бұрын
Em minhas estratégias utilizo o stream lookup. ficando desnecessário o sort e o alto consumo de memória.
@Comunidados
@Comunidados 3 жыл бұрын
Fala, Raul. O problema do Stream Lookup é que ele irá cruzar todos os dados das duas fontes de dados. E isso não é performático. No Merge Join, embora seja necessário ordenar os dados antes do Join, ele compensa na forma como ele verifica os campos chaves. Mas vale um teste de desempenho entre esses dois steps :D.
@rafaelvieiradeandrade3051
@rafaelvieiradeandrade3051 3 жыл бұрын
Boa, no datastage da ibm segue o mesmo princípio
@Comunidados
@Comunidados 3 жыл бұрын
Valeu Rafa. Tmj!
@gilbertogcssantos
@gilbertogcssantos 3 жыл бұрын
Top demais, muito show!
@Comunidados
@Comunidados 3 жыл бұрын
Obrigado pelo elogio Gilberto! Espero que tenha agregado de alguma forma.
@afonsoleite2933
@afonsoleite2933 3 жыл бұрын
Amigos, caso surgisse o problema apresentado na máquina do Jonathan, eu não saberia resolver na minha máquina. Desejo sucesso na caminhada profissional de vocês. Grande abraço!
@Comunidados
@Comunidados 3 жыл бұрын
Muito obrigado Afonso. É só o começo.
@ErickNishimoto
@ErickNishimoto 3 жыл бұрын
Ótima didática!!!
@Comunidados
@Comunidados 3 жыл бұрын
Muito obrigado Erick ☺️
@madsonrocha178
@madsonrocha178 Жыл бұрын
Muito bom!
@aresende001
@aresende001 3 жыл бұрын
Muito bom, obrigado!.
@Comunidados
@Comunidados 3 жыл бұрын
Valeu André. Espero ter ajudado.
@marcoslinsfilho
@marcoslinsfilho 3 жыл бұрын
Jonathan, não seria mais interessante fazer essa ordenação já no Select de consulta que você faz nas tabelas usando Order by e evitar dois steps a mais no processo de ETL?
@marcoslinsfilho
@marcoslinsfilho 3 жыл бұрын
Outra coisa, você tem ideia do pq o pdi se perde nesse processo se não tiver ordenado? O problema é do pdi mesmo?
@Comunidados
@Comunidados 3 жыл бұрын
Excelente pergunta Marcos. Nesse caso poderíamos ordenar na própria query, pois ambas as tabelas estão no mesmo banco de dados, e a versão do banco é a mesma. Mas em um projeto da vida real você cruza diferentes bancos, em diferentes versões, incluindo arquivos em formatos diferentes. Então é importante utilizar o Sort Rows sempre. Mas em um projeto
@Comunidados
@Comunidados 3 жыл бұрын
Sobre o PDI se perder, isso acontece pela forma que ele faz o Join e o Group By. Para agilizar o processo ele não varre a tabela completa. Quando muda o campo chave da tabela da direita, ele passa para a próxima linha na tabela da esquerda.
@vieiramaicon
@vieiramaicon 3 жыл бұрын
@@Comunidados então não bastaria apenas ordenar a tabela da direita? Ou precisa ordenar as duas?
@jorgenelsonoddone3809
@jorgenelsonoddone3809 3 жыл бұрын
Goatei do seu vídeo, parabéns. Uma dúvida: em projetoa reais, considerando que a conexão é a mesma, seria mais eficiente fazer esse processo inteiro direto na query e já trazer o dado agregado ou fazer no Pentaho? Digo isso porque se as tabelas tivessem milhões de linhas o banco usaria o índice para fazer o join. Grato
@Comunidados
@Comunidados 3 жыл бұрын
Fala, Jorge. Depende do que você quer dizer com eficiente. A forma como o PDI faz JOINs é diferente de como os SGBDs realizam. Por isso existe a necessidade de ordenar os campos: Para gerar um melhor desempenho. Além disso, fazer todo o ETL no PDI trás mais transparência para o processo, podendo realizar os tratamentos de erro em cada etapa, e tomar ações diferentes. Sempre recomendo utilizar um pipeline, ao invés de fazer de forma Hard Coded.
@danielleme3298
@danielleme3298 2 жыл бұрын
Tem vídeos sobre o Group By?
@Comunidados
@Comunidados 2 жыл бұрын
Ainda não, Daniel. Mas é uma ótima ideia produzir um sobre o assunto
@filhadoleao2872
@filhadoleao2872 3 жыл бұрын
Show, obrigada!
@Comunidados
@Comunidados 3 жыл бұрын
Nós que agradecemos!
@anujraut1927
@anujraut1927 3 жыл бұрын
Sir Please provide English Subtitles as we could also understand .
@lincolnprendergast9063
@lincolnprendergast9063 3 жыл бұрын
Please in English or spanish
@Comunidados
@Comunidados 3 жыл бұрын
Hi, Lincoln. We are Brazilian guys. So, no make sense produce videos in English or Spanish in this moment. I Try put automatic legend in English and Spanish, but doesn't work.
@lucasnovais3773
@lucasnovais3773 3 жыл бұрын
O uso do dummy é obrigatório?
@Comunidados
@Comunidados 3 жыл бұрын
Fala Lucas. Não. Usar o Dummy é só uma boa prática que eu uso para fazer o preview dos dados. Se remover ele, o ETL continuará funcionando.
@lucasnovais3773
@lucasnovais3773 3 жыл бұрын
@@Comunidados Obrigado. Esse foi o primeiro vídeo de Pentaho que vi na vida. Achei top.
@Comunidados
@Comunidados 3 жыл бұрын
Essa ferramenta é incrível Lucas. Se ainda não é Inscrito, já se inscreve e ativa o sininho que vai vir conteúdo pesado!
@anujraut1927
@anujraut1927 3 жыл бұрын
Please provide English Subtitles as I am from India and Subscribe r of your channel so thta I could also understand
@Comunidados
@Comunidados 3 жыл бұрын
Hello Anuj. It's a pleasure to know you. Don't worry, in the next vídeos I will set English subtitles. This way, you and another people who living out of Brazil can learning too.
@anujraut1927
@anujraut1927 3 жыл бұрын
@@Comunidados THANKS SIR .
How Strong is Tin Foil? 💪
00:26
Preston
Рет қаралды 88 МЛН
GIANT Gummy Worm Pt.6 #shorts
00:46
Mr DegrEE
Рет қаралды 47 МЛН
ПРИКОЛЫ НАД БРАТОМ #shorts
00:23
Паша Осадчий
Рет қаралды 5 МЛН
DOCKER + PENTAHO!  O ENCONTRO DOS SONHOS...  (SERÁ QUE RUSHA?)
14:44
TUDO SOBRE PENTAHO DATA INTEGRATION (PDI) | CHORA PDI #001
1:46:54
Pentaho Data Integration: Multiway Merge Join
11:08
Dominando BI
Рет қаралды 4,4 М.
A melhor ferramenta de migração de dados que já vi! (PENTAHO)
21:59
MQFS - Meu querido Firebird SQL
Рет қаралды 11 М.
Pentaho - Transformações Simples
14:20
Douglas Poso
Рет қаралды 14 М.
Buscando dados de uma API usando o PDI
17:03
devAnalytics
Рет қаралды 10 М.
Utilizando Merge Rows (Diff) - Pentaho Data Integration
12:10
Charles Lima
Рет қаралды 8 М.
How Strong is Tin Foil? 💪
00:26
Preston
Рет қаралды 88 МЛН