LLAMA 3 da Meta com Interface Gráfica no Seu Computador

LLAMA 3 da Meta com Interface Gráfica no Seu Computador - Open WebUI

Рет қаралды 7,984

Күн бұрын

Aprenda Inteligência Artificial! Seja Membro do canal:
www.youtube.co...
Ollama: ollama.com
Open WebUI: github.com/ope...
NVIDIA Container Toolkit: docs.nvidia.co...
Docker: docs.docker.co...
Site: www.inteligenciamilgrau.com
Instagram: @inteligenciamilgrau
facebook: / inteligenciamilgrau
GitHub: github.com/int...

Пікірлер: 78

@gabrielvenancio9674 3 ай бұрын

Cara, que video bom! Todos os problemas que eu tive você explicou como solucionar, muito obrigado. Uma duvida, após eu desligar o docker e voltar a utilizar no dia seguinte, ele é capaz de relembrar todo o contexto que conversamos? Ou igual o chatgpt eu preciso sempre explicar tudo novamente

@inteligenciamilgrau 3 ай бұрын

Faaaaala Gabriel!! Que bom que deu certo!!! Fiquei na dúvida agora, mas acredito que perde!! Mas talvez o WebUI consiga recuperar!! Eu testei pouco, acabei não testando essa parte!!

@VitorFachine. 3 ай бұрын

Boaa! Em algum dos planos de "Seja Membro" tem algum vídeo seu mais detalhado sobre Instalação do OpenWebUI ?

@inteligenciamilgrau 3 ай бұрын

Se a dúvida for simples, posso ajudar aqui mesmo!! Os membros tem acesso à um grupo de whats aberto para qualquer nível! Lá dá para tirar dúvidas desde que alguém saiba responder!! Valeuuuu

@CarlosRedoanroberto 5 ай бұрын

Top demais esse conteudo, a configuração do seu pc deve ser top, aquela parte dos documentos seria como se fosse pra fazer RAG? Acho ollama tem api também não tem?

@inteligenciamilgrau 5 ай бұрын

Exatamente, é rag sim! Tem api também! Muito completo

@robsonlirayou 3 ай бұрын

Massa meu caro, gostei, agora eu tenho um SSD de 256 onde roda o Windows e tenho também um WSL2 ( O Linux com uma distribuição do Ubuntu ) quanto de espaço esta instalação ocupa???

@inteligenciamilgrau 3 ай бұрын

Faaala Robson!! Ela ocupa bastante!! São pelo menos uns 4 giga de instalação mais o tamanho do modelo!! Eu recomendo usar o WSL2 com um ubuntu dedicado estilo docker que aí fica fácil de desinstalar caso não use muito!! Aqui eu uso tão pouco que só instalo na hora de gravar vídeos! No geral os modelos gpt 3.5 ou haiku são bem baratos para usar via API e vale mais usar on-line! Valeuuuuuuuu

@ChatBot-cy3zf 5 ай бұрын

Que top!!! Comentando antes do video, existe API pra ela?

@inteligenciamilgrau 5 ай бұрын

Existe sim!! No outro vídeo que falo do Ollama eu inclusive mostro como usar!! Dá uma olhada: kzbin.info/www/bejne/Zp2kfoF-qr-eZ9k

@rodrigomata2084 5 ай бұрын

Fala Bob e aí blz? Não sei qual placa de vídeo você tem, mas no Reddit o pessoal falou que consegue tá conseguindo rodar a versão do llama 70b quantizada em iq2_s no formato GGUF com 24 GB de VRAM e tá bem fluindo, se vc tiver condições testa que tá show, pelo Ollama até agora não consegui rodar mas pelo llama.cpp tá de boa

@inteligenciamilgrau 5 ай бұрын

Boaaaaa, gostei!! Eu vi que uma galera só recomenda usar até as Q4, que depois disso degrada bem o resultado!! Mas não vi ninguém comentando se uma Q2 ficar pior que as 8B, ou se é melhor que a 8B e pior que a 70B!! Pq como o peso vai perdendo precisão, às vezes vale uma 8B precisa que uma 70B degenerada!! Mas ainda não li os comentários sobre isso!! Valeuuu pelas informações!!

@rodrigomata2084 5 ай бұрын

Então, eu uso geralmente modelo quantizados no máximo até q3_m (Mixtral) por padrão não reparei e nenhuma perca de qualidade tão significativa, realmente no modelo de quantização padrão tanto q1 quanto q2 nos testes que eu fiz ele começa a alucinar bastante, porém tem um novo padrão de quantização que está saindo para os modelos GGUF (imatrix) e incrivelmente pelos resultados que eu vi em iq2_s ele ainda alucina algumas vezes mas está trazendo respostas boas principalmente em inglês.

@rodrigomata2084 5 ай бұрын

Mas realmente, também faço uso do llama 8b e as respostas estão me ajudando bastante, o 70b tá em 6 lugar na classificação geral do hugging face arena e um dos melhores em inglês superando o Claude 3 opus

@inteligenciamilgrau 5 ай бұрын

Eu curti a 70B também!! Em geral uso no Groq!! Depois que comecei a fazer few shots na saída esperada com formato JSON, estou conseguindo usar qualquer modelo para as automações!! Tenho usado gpt3.5-turbo e claude3-haiku bastante dessa forma!! O claude só não uso mais porque ele fica dando limite de uso! rsrsrs

@ChatBot-cy3zf 5 ай бұрын

@@rodrigomata2084 opa mano, voce pode me passar seu contato? queria tirar umas duvidas sobre isso

@CryptoFrontierWeb3 26 күн бұрын

Boa tarde amigo. Estou querendo fazer um projetinho mas queria fazer local. 16gb ram ryzen 7 3800 asus 550b gaming plus placa mae 1050 ti isso aqui da pra rodar pelo menos um modelo 7B sem censura ? E esse modelo se eu treinar ele, ele consegui ficar bom em progrmaação pra me ajduar com projeto? sou inciante em progrmaação!

@inteligenciamilgrau 26 күн бұрын

Testa primeiro com o modelo phi3!! E depois testa os 8B!! Aì você vai perceber!! E tenta rodar usando o LM Studio!! É mais simples! Veja o que acha!! Para programação, eu usaria a versão do ChatGPT gratuita on-line mesmo!! Ela é excelente e não vai precisar pagar nada também!! Veja se dá certo!! Valeuuuuuuuu

@RafaelOGrande 26 күн бұрын

Oi! viu, qual exatamente a GPU Nvidia que tu usa? Será que qualquer gpu nvidia que possua cuda cores funcionaria? fiz a instalação do llama3 para windows (direto sem docker) e tb em uma VPS linux, na vps ficou impraticavel, em minha maquina com uma boa CPU, 16gb com GPU não Nvidia logo não usou, só rodou de forma aceitável os modelos mais leves como 7b e o phi3. Gostaria de conhecer um setup de hardware onde pudesse ter o llama com um bom modelo(superior aos que citei), +a interface para o pessoal, rodando dentro da empresa para atender a cerca de ~10 pessoas em simultaneo. Só encontrei vídeos falando do harware do servidor de IA na gringa, e as máquinas tem um custo fora da nossa realidade brazuca (vi cara usar 2 gpus cada uma custando ~R$20.000,00 ai inviabiliza) A unica Nvidia com cuda cores que encontrei com preço mais camarada foi a GTX 1650 porem (885,00 na Kabum) mas o medo de comprar para isso e nem ser compatível é grande XD Poderia fazer um video a respeito? ;)

@inteligenciamilgrau 26 күн бұрын

Faaaala Rafael!! Eu diria que hoje em dia, pra ter uma GPU para começar a usar e rodar um Flux eu recomendo começar com uma 3060 da Nvídia de 12gb de vram!! Aqui eu tenho uma 1060, mas não uso para rodar LLM todo dia que a LLM consome bem!! Os modelos que começam com "10" tem uma tecnologia antiga que não é otimizada para multiplicação de matrizes!! Eu atualmente não uso nada local!! Porque o custo de usar on-line é menor! rsrs E no geral o Claude e o ChatGPT online ou pela API já resolvem 99% dos meus casos!! Só compraria uma GPU se fosse para algo que precisasse muito de segurança da informação!! Dá uma pensada! Valeuuuuuu

@VictorCampos87 17 күн бұрын

Tenho uma GTX 1060 de 6 GB de VRAM e rodei hj uma LLM chamada _"Meta Llama 3 1 Instruct 8B q5_k_m gguf"_ que possui 5.73 GB usando o LM Studio no Windows 11. O desempenho dessa LLM foi rápido, gerando aproximadamente 3 palavras por segundo para cada requisição de pergunta no chat. Penso eu que uma RTX 4080 já consiga oferecer um desempenho aceitável para 10 pessoas usarem. Óbvio q se as 10 pessoas enviarem perguntas ao mesmo tempo, vai ficar lento. Imagino eu que uma placa dessas consegue lidar com mais de 50 requisições por hora. Agora, se vc tentar rodar via CPU, o desempenho é horroroso, mesmo com uma CPU topo de linha.

@lucascampos4871 27 күн бұрын

Show de bola, LLama aqui rodou file, esta rodando no wsl, na porta 11434 (verificado com netstat). Porem o Painel da OpenWEB não consegue si conectar é osso

@inteligenciamilgrau 27 күн бұрын

Faaaala Lucas!! Fica atento ao fato de se o modelo foi instalado junto com o WebUI, ou se o WebUI está externo!! Que a configuração é diferente para cada um dos casos!! Valeuuuuuuuuuuuuuuuuuuu

@lucascampos4871 27 күн бұрын

@@inteligenciamilgrau ambos foram instalados no wsl, porem o webui dentro de um docker

@inteligenciamilgrau 27 күн бұрын

Dá uma conferida na configuração que eu falo em 6:54

@lucascampos4871 27 күн бұрын

@@inteligenciamilgrauexatamente aí, nesse ponto nem pelo localhost ou o IP do wsl deu conexão, mas extremamente no navegador o IP e a ponta carrega página avisa que o llma está rodando. Talvez eu tenha um bloqueio, por isso comecei fazer um wsl do zero

@inteligenciamilgrau 26 күн бұрын

Verifica se instalou a versão que já tem o ollama embutido!! E se mesmo assim continuar dando errado, coloca o ollama separado!! E faz a configuração!!! E se nada der certo, usa o LM Studio! rsrs Que é o mais simples de usar!! Valeuuuuuuuuuuuuuuuuuuuuu

@joygumero 4 ай бұрын

Acabei de instalar no meu pc através do instalador mais recente para windows, é possível ativar a conversa por voz, como no chatgpt e fazer pesquisas online?

@inteligenciamilgrau 4 ай бұрын

Fala Joy!! Até onde usei, é possível clicar no play para ele ler o texto e também é possível clicar no mic para gravar a pergunta!! Mas não vi nenhuma opção para conversar sem precisar clicar!! E para as pesquisas on-line, não encontrei na versão atual!! Pode ser que tenha e acabei não achando!! Ou talvez surja em versões futuras!! Valeuuuuuuuuuu

@joygumero 4 ай бұрын

No meu não tem o botão play como aparece aí, só tem o de enviar msg, baixei pelo próprio site do gpt4all o instalador.. poderia me ajudar?

@inteligenciamilgrau 4 ай бұрын

@@joygumero O gpt4all é outro!! Esse que usei é Openb WebUI!! Você entra no site github.com/open-webui/open-webui e segue as instruções do vídeo! Esse Open WebUI é bem completo, mas não é tão simples de instalar! Precisa de um pouco de persistência!!

@Vitor-ur2rl 5 ай бұрын

Top, d++ Você poderia ensinar como fazer fine tuning

@inteligenciamilgrau 5 ай бұрын

Ótima ideia! Valeuuuu Vitor!

@brunonogueira1743 2 ай бұрын

Qual placa de vídeo vc recomenda pra desktop ?

@inteligenciamilgrau 2 ай бұрын

Eu recomendo em primeiro lugar, fazer um projeto usando API e deixar ele bem redondo!! Validar que ele se tornou parte do dia a dia! E se isso der certo, procure as placas da nvidia RTX com 8 GB de Ram para os modelos pequenos, e de 22GB de Ram para fazer fine tunning local ou para rodar as LLms menores com folga!! Eu particularmente não tenho nenhum projeto que justificou comprar hardware novo!! Porque um GPT-4o mini custa 0.15 o input e 0.60 a saída a cada milhão de tokens!! Isso é mais barato que comprar!! Porém se tem questões de sigilo, vale a pena pensar em um modelo local!! Ou alugar uma VPS para rodar modelos fora dos servidores padrões!! Diz o que achou!! Valeuuuuu

@estudantededicado6419 5 ай бұрын

eu testei esses dias uma IA que gera imagens e tmbm é instalada no PC. bom de +, pena q demora mt pra gerar as imagens

@inteligenciamilgrau 5 ай бұрын

Faaaaala Estudante!! Tudo bem? Que modelo usou? Confere se você tem uma placa de vídeo tipo NVIDIA que fica mais rápido!! E também confere que as vezes mesmo que a gente tenha, ela não ativa na hora da instalação!! Valeuuuuuuu

@estudantededicado6419 5 ай бұрын

foi um modelo em codado em python, eu baixei a pasta e fiz gerar umas imagens. foi do perchance, lembro que fiquei fuçando o site e clicando em td qnt era coisa azul q tinha la, ate que uma redirecionou para uma pagina do github do perchance, achei bem interessante

@juniorsalma 4 ай бұрын

Olá, ele nao rodar em notebook simples né? Será que daria pra usar o llama 2?

@inteligenciamilgrau 4 ай бұрын

Nesse caso tenta o phi3! Valeuuuu

@MaxJM74 Ай бұрын

Eu tava procurando isso 😂

@inteligenciamilgrau Ай бұрын

Perfeito!!!!

@mellorafael 3 ай бұрын

Preciso obrigatoriamente de uma GPU, certo?

@inteligenciamilgrau 3 ай бұрын

Obrigatoriamente é uma palavra muito forte! Mas a verdade é que sim! Na CPU fica lento demais! Mesmo na GPU, dependendo do modelo já fica lento! Valeuuuuuuu

@vitorribas2829 4 ай бұрын

Alguém sabe me dizer se tem um serviço que podemos pagar máquinas mais rápidas para rodar o modelo de 70b?

@vitorribas2829 4 ай бұрын

Sei que tem o aws, que podemos rodar

@inteligenciamilgrau 4 ай бұрын

Um lugar que roda bem é no GROQ, é uma plataforma de IA do criador das TPUs da Google! Veja se lá dá certo! Valeuuuu

@vitorribas2829 4 ай бұрын

Muito obrigado.

@emanueln.2707 3 ай бұрын

E aí, deu certo?@@vitorribas2829

@MPCDesenvolvimentoWeb 3 ай бұрын

Eu desisto, fiz tudo certinho e rodou tranquilo depois da instalação, liguei o PC outro dia e deu pau, já nao funcionava mais, refiz o passo a passo e agora só carrega a janela do chat mas nao carrega o modelo, mesmo ele estando instalado

@inteligenciamilgrau 3 ай бұрын

Faaaala MPC, se rodou uma vez estamos no caminho certo! Fez no Windows, Linux ou maços?

@MPCDesenvolvimentoWeb 3 ай бұрын

@@inteligenciamilgrau Windows 10 mesmo, acabei de fazer varias tentativas, ele não carrega nenhum modelo e quando tento instalar pelo painel da erro de conexão

@inteligenciamilgrau 3 ай бұрын

Boaa! Você fez como eu fiz usando o Ubuntu dentro do windows ou com o instalador deles? O problema que aparemente está acontecendo é que estão subindo dois ou mais ollamas ao mesmo tempo! E o sistema está se perdendo na hora de usar!!

@MPCDesenvolvimentoWeb 3 ай бұрын

@@inteligenciamilgrau Sim, usando windows mesmo, instalo o Docker, depois copio a linha de comando para GPU e abro um prompt "modo administrador" e colo... dou enter ele começa o download... ja fiz de tudo, so funcionou a primeira vez, ja limpei todos os arquivos e desisntalei tudo, limpei historico e arquivos TEMP.. nada ate agora

@inteligenciamilgrau 3 ай бұрын

Quando você digita "ollama list" aparece algum modelo listado?

@MaxJM74 Ай бұрын

Top

@inteligenciamilgrau Ай бұрын

Uhuuuuuuu!! Valeuuuuuu

@eliascarvalhooo 5 ай бұрын

Topzera 😮😮

@inteligenciamilgrau 5 ай бұрын

Uhuuuuu, valeuuuu

@marceloguimaraes796 3 ай бұрын

os modelos nao aparecem pra mim

@inteligenciamilgrau 3 ай бұрын

Faaaaaala Marcelo!! Não esquece que dar o "run"!! Que é ali que ele faz o download do modelo na primeira vez! Por exemplo "ollama run llama3"! É nessa hora que ele instala!! Aqui está a lista de modelos: ollama.com/library

@felipealmeida5880 5 ай бұрын

É legalzinho pra brincar, mas ainda é bem burrinho com 8B. Para tarefas relevantes não dá pra confiar, o ideal seria 70B+, mas meu PC pegaria fogo. Copilot sai ganhando ainda infelizmente...

@inteligenciamilgrau 5 ай бұрын

Faaaaala Felipe!! A questão do 8B tem mais a ver com o hardware que cada um tem!! Estava vendo aqui que uma A100 da NVidia custa 140 mil reais! Com 80 giga! Aí dá pra rodar um Ollama turbinado com Llama3 70B relativamente suave! Talvez umas duas pra ficar top! rsrsrs No geral eu consigo usar modelos 8B em produção fazendo few shots com JSON na saída esperada!! Dá até para usar modelos 8B!! Os modelos estão cada dia mais robustos!! Valeuuuuuuuuuuu

@felipealmeida5880 5 ай бұрын

Vish se custa tudo isso, acho que mesmo otimizando ao máximo não vão conseguir fazer milagre com os modelos, alguma coisa vai ter que surgir aí no caminho para poder usar um ChatGPT em casa algum dia. Provavelmente em menos de uns 10 anos não vamos ver um hardware que não custe o olho da cara nas lojas.

@inteligenciamilgrau 5 ай бұрын

Kkkkkkkkk exatamente! Llm é um problema de hardware e também energético! Certeza que essas empresas estão dando prejuízo nos preços que vendem o uso das apis! A conta não fecha! Aparentemente estão dando lucros colaterais!

@impirotec5786 4 ай бұрын

⁠o meu também pegaria fogo.

@impirotec5786 4 ай бұрын

@@felipealmeida5880 que será que acontece se tentassemos usar o bloom? que tem 1,75 trilhões de parâmetros?