NOVA IA: LLAMA 3.1 405B! ... e daí?

Рет қаралды 11,031

Күн бұрын

Пікірлер: 53

@caiosantana7077 6 ай бұрын

Você se tornou o meu novo modelo de referência, comprei seu curso e a sua metodologia, didática e entrega são incomparáveis! Obrigado

@AsimovAcademy 6 ай бұрын

Muito obrigado, Caio!! Conta conosco pro que precisar!!

@Basura-yi1ey 6 ай бұрын

Excelente canal. Não pare

@danielguimaraes8365 6 ай бұрын

Excelente vídeo !!!

@cleyton1986 5 ай бұрын

Cara... Sensacional seu canal... Parabéns pelos conteúdos +1 Inscrito

@AsimovAcademy 5 ай бұрын

Agradecemos, Cleyton. Seja muito bem vindo!

@gabrieldasilva30 6 ай бұрын

Ótimo vídeo. Eu estava pensando em comprar uma placa de vídeo super cara pra rodar o modelo 405b, mas percebi que não seria o suficiente.

@AsimovAcademy 6 ай бұрын

Mas ainda sim, acho que investir em uma placa boa (com 16b+) para exploração de modelos menores é uma ótima opção!

@fabioa8059 6 ай бұрын

É melhor usar a api do gpt

@LikeaRoshanTM 6 ай бұрын

Você não faz ideia do quanto estava ansioso para ver esse vídeo seu, ainda não vi mas já agradeço kkk. Agora bora ver

@humbertocortezia 6 ай бұрын

Eu estava tentando configurar essa versão 405b agora a tarde na real, to com 2 GPU A40 de 48gb cada 350gb de ram e usando o openweb ui para o front, mas eu uso o llama3.1 70b de forma até satisfatória, porem ainda acho ela pouca coisa lenta, como alterei a vm hoje de manhã para pegar +1 GPU ainda não aloquei as 2 placas para trabalharem juntas.

@leonardocamposprado 6 ай бұрын

em 4:50 fala sobre um servidor interno com 2 placas 3080, gostaria muito de saber a configuração de todos componentes que usou para montar esse servidor e como faça para alocar as memórias das 2 placas de vídeo ao mesmo tempo para rodar o Lhama3.1.

@rafaelavaiano 6 ай бұрын

Já testou o Gemini 1.5 Pro Exp disponível no AIStudio? Achei mais interessante que o llama e mistral.

@ticelsoful 6 ай бұрын

Mais um excelente conteúdo. Tem como comprar seu curso sem que meu cartão fique com os créditos totais estourados.

@ruig1780 6 ай бұрын

acho q o hype tah passando... Espero q canais como o seu continuem, pois são muito mais "pé no chão". Cansado dessa galera virando os olhinhos, com qq noticia meia boca de IAs.😂🙂

@erosgkm 6 ай бұрын

E a tal da Groq, ainda não foi upado essa nova versão do llama 405B?

@AsimovAcademy 6 ай бұрын

Infelizmente não.... e não sei se será, pois a Groq (sei lá como) é totalmente gratuita, mas um modelo de 700gb roubaria muito espaço dos demais. Aguardemos!!

@MrZeronaldo 6 ай бұрын

Usa o bedrock da AWS que vai sair “mais barato” que esse cluster. E com bucket S3 e seus dados vc consegue fazer inferência com seus dados

@AsimovAcademy 6 ай бұрын

Excelente sugestão!

@jucylenemelo 6 ай бұрын

Muito bom

@Fernando-e6w 6 ай бұрын

Que estranho, fiz um teste numa 1090 ti 4gb, fazia 25 a 27 tokens por segundo. Vc com duas 3090 fazer só 100 tokens por segundos parece que tem algo errado.

@AsimovAcademy 6 ай бұрын

Qual quantização você utilizou?

@klausdellano2341 6 ай бұрын

Mais uma prova de que a quantidade de parâmetros não significa um ganho significativo semelhante ao tamanho… e pensando em agentes, em cadeia, o resultado final eh tão bom quanto.

@MGJpredador 2 ай бұрын

Pera, prova? Pensei que já era um fato consolidado.

@OCarlan 6 ай бұрын

Qual programa voce usa pra gravar e colocar sua tela e vc ao mesmo teempo?

@AsimovAcademy 6 ай бұрын

Isto é feito na pos produção, dentro do Adobe Premiere

@OCarlan 6 ай бұрын

@@AsimovAcademy Obrigado

@humbertocortezia 6 ай бұрын

Cara, como eu consigo deixar meu modelo 70b de uma forma bem mais configurado eu sou leigo, uso tudo como default, queria deixar ela mais contextualizada.

@gustavogugu2577 6 ай бұрын

Nem sempre o maior é o melhor.

@Nyx227-k7d 6 ай бұрын

E se usasse uma nvidia quadro?

@Guiburgueir4 6 ай бұрын

Vai depender de quanta VRAM apenas. Modelos com muita VRAM custam uma moto 0KM ou mais.

@Nyx227-k7d 6 ай бұрын

@@Guiburgueir4 me refiro a questão da otimização independente do modelo, pq já testei no meu pc e mesmo modelos pequenos não são super fluidos, e as nvidia quadro são feitas pra cálculos complexos

@AsimovAcademy 6 ай бұрын

Este é um site que apresenta testes de velocidade de inferência em diferentes GPUs: github.com/XiongjieDai/GPU-Benchmarks-on-LLM-Inference. Mas em linhas gerais, qualquer GPU é melhor do que nenhuma, dado que seu modelo caiba inteiramente nela. Abraços!

@uzielweb 6 ай бұрын

Mas não conseguimos usar aqui no Brasil.

@alandioria8440 6 ай бұрын

Boa noite. Estou com um projeto em que devo extrair informações de um PDF por exemplo: tipo, resumo, palavras chaves e assim sucessivamente qual modelo você me recomenda? Melhor custo benefício entre qualidade e custo?

@SacanagemSincera 6 ай бұрын

gpt-4o-mini

@danieldamacena5197 6 ай бұрын

tente subir no drive da google e perguntar no gemini. Pode usar o notebooklm também e adicionar o pdf como fonte.

@TrumanShowss 6 ай бұрын

Usa o claude ai 3.5 sonnet ou o sapiens chat

@fabioa8059 6 ай бұрын

Manda o conteúdo pra api do gpt e pede pra resumir

@alandioria8440 6 ай бұрын

@@danieldamacena5197 sim mas queria saber questão de custos cad requisição em média esta gerando 6k de tpokens

@RafaelCostaPereira-f1i 5 ай бұрын

Resumindo, é bom?

@elproffesor2272 5 ай бұрын

Iso e loucura h100 pra roudar uma IA tudo pra faze uma pergunta pra ela???

@HernaniSamuel 6 ай бұрын

O problema é o senhor computador que é necessário pra rodar essa IA 😅 Meu notebook demora 10 minutos para rodar o GEMMA 7B kkkkkk

@siriusleto3758 6 ай бұрын

Ninguém consegue uma única H100. O Elon Musk já começou com 100.000 placas H100. Milhares trabalham para ele e poucos vão poder comprar uma única H100 também, praticamente todo dinheiro vai para 1 pessoa só.

@miaugamer9036 6 ай бұрын

Fumou foi?