Fine-tuning LLM: fakty i mity
1:34:23
PML od środka
18:27
4 ай бұрын
DWthon - zaproszenie
7:52
3 жыл бұрын
Uczenie maszynowe - to działa!
0:30
Czy uczenie maszynowe działa?
0:30
4 жыл бұрын
NLP w Twojej firmie -  kurs online
2:33
Пікірлер
@MarcinWawrzyniak150
@MarcinWawrzyniak150 4 күн бұрын
Super materiał. Jak już mam model na dysku, to jak go uczyć? W programie Jan nie widzę takiej opcji.
@DataWorkshop
@DataWorkshop 2 күн бұрын
Marcin, dziękuję za komentarz :) Dotrenowania modele nie jest takie łatwe. To wymaga sprzęt i inne rzeczy. Jan czy podobne narzędzia są do tego, aby wykorzystywać to co już jest wytrenowane. A powiedz dokładniej czego brakuje, może to jest kwestia zrobienia tego inaczej. @MarcinWawrzyniak150
@MarcinWawrzyniak150
@MarcinWawrzyniak150 2 күн бұрын
@@DataWorkshop np. Jakbym robił offlinową maszynę z modelem, który ma dostęp do danych firmy.
@MarcinWawrzyniak150
@MarcinWawrzyniak150 2 күн бұрын
Testuje program Msty, który ma zakładkę knowledge stacks, gdzie mogę podłączać pliki, ale ciężko to idzie, bo raczej maszyna nie daje rady: 16GB RAM, 2GB VRAM
@nemonemus6743
@nemonemus6743 4 күн бұрын
Dzień dobry, wysłałem maila z moim problemem tydzień temu, prosiłbym o kontakt
@DataWorkshop
@DataWorkshop 2 күн бұрын
Obowiązkowa odezwiemy się, czy to było wysłane na hello@? @nemonemus6743
@sipsiup
@sipsiup 5 күн бұрын
Zgadzam się z Twoim spostrzeżeniem odnośnie dyskusji z klientem na temat „że dane są ważne”. Zwykle jak się temat głębiej podrąży to klient nie końca rozumie czym są dane ? Czy ufasz swoim danym ? - to są trudne pytania dla klienta. Ja się dużo nad tym zastanawiam i chyba tu chodzi o to że dane to jest „coś abstrakcyjnego” trudno sobie komuś kto w tym nie siedzi wyobrazić dane bo jest to dość abstrakcyjna materia. Przykład - idzie człowiek do sklepu i widzi słoik z dżemem - prosta sprawa widzisz słoik, dotykasz, otwierasz , wąchasz, smakujesz i jest to rzeczywiste, ale jak zrobisz reprezentację tego słoik z dżemem w danych to już nie jest takie proste do uchwycenia przez kogoś kto w tym nie siedzi. A gdybyś nigdy nie widział tego słoika z dżemem w realu ? to zrozumienie i dostrzeżenie tego słoika z samych danych jest po prostu trudne dla naszego mózgu… co o tym myślisz?
@DataWorkshop
@DataWorkshop 2 күн бұрын
No, ciekawa analogia! Tak, dane zdecydowanie są utworem konceptualnym, którym trzeba zarządzać. To nie ziemniaki czy dżem, które po prostu masz lub nie masz. Dzięki za ten przykład, pobudza wyobraźnię
@rafaplis
@rafaplis 7 күн бұрын
Dzięki za materiał.
@DataWorkshop
@DataWorkshop 6 күн бұрын
Dziękuję :)
@PiotrPiatkowski
@PiotrPiatkowski 8 күн бұрын
Jeżeli chodzi o śledzenie i analizowanie dlaczego coś nie działa - to właśnie LangChain + LangSmith są świetne, bo pozwalają prześledzić całe drzewko zapytań. Szczególnie w przypadku agentów z narzędziami (tools) bardzo się to przydaje. Choć moim zdaniem LangChain jest strasznie przekomplikowany, zresztą pojawił się teraz LangGraph, który chyba jest próbą uproszczenia nieco tej biblioteki.
8 күн бұрын
Jakiej najlepiej używać baz danych do przechowywania tekstów z których mają być komponowane prompty i role w LLM?
@DataWorkshop
@DataWorkshop 7 күн бұрын
Tu nie ma idealnej odpowiedzi, zresztą są co najmniej trzy rzeczy do rozważenia: 1. gdzie fizycznie są przechowywane dane, 2. jak są strukturyzowane (np. płaska struktura, grafy itp.), 3. sposób, w jaki będziemy je wyszukiwać (klasyczna wyszukiwarka, embeddings itp.). Do tego dochodzą jeszcze inne wymagania: - jak często będą dane aktualizowane, - jaka będzie skala (raz na dzień czy miliony zapytań, lub coś pomiędzy), - kwestie związane z prywatnością i rolami. Natomiast, jeśli chodzi o bazę wektorową, faktycznie czasami może być przydatna jako wyszukiwarka. Jednak, co podkreślam, proces wyszukiwania można zorganizować na różne sposoby, w zależności od problemu, który rozwiązujemy. Na przykład w tematach prawnych lub podobnych, gdzie precyzja jest bardzo ważna, same wektory mogą wprowadzać dużo zamieszania i niepewności.
@1972kotek
@1972kotek 8 күн бұрын
Jak powinno się prawidłowo przeprowadzić wdrożenie rozwiązania używającego model LLM gdzie w zapytaniach pojawiają się dane podlegające RODO a użycie modelu lokalnego jest problematyczne? Jakieś umowy z dostawcą API (OpenAI, Google) czy inaczej do tego podjeść?
@DataWorkshop
@DataWorkshop 7 күн бұрын
To jest już pytanie wprost dla prawników, dlatego polecam podejść do tematu od tej strony. Ważne jest, że nawet jeśli prawnik już coś przygotował komuś innemu, nie należy kopiować tego jeden do jednego. Każdy biznes jest (trochę) inny i ma swoje specyficzne potrzeby. Moja rola w tej rozmowie polega na zwracaniu uwagi na to, co jest istotne i na pytania, które prawnicy mogą zadawać, ustalając szczegóły. Natomiast nie jest prawnikiem, jestem od strony biznesowej, konceptualno-technicznej. Dla środowiska Enterprise to, co gwarantuje (prawnie) Vertex AI (Google) czy Azure (Microsoft), może być akceptowalne, ale nie zawsze. W większych chmurach, na przykład, istnieje możliwość przetwarzania danych tylko w UE (to dla RODO jest ważne), a dodatkowo zapewniają one szereg innych elementów wymaganych przez RODO. Jeszcze raz powtórzę, polecam przepracować temat RODO bezpośrednio z prawnikiem. To pewna inwestycja, ale zazwyczaj warto ją ponieść. @1972kotek
@1972kotek
@1972kotek 7 күн бұрын
@@DataWorkshop Temat trafi do prawników. Szukałem jakiś informacji od kogoś kto ten proces przećwiczył. OpenAI ma stronę do zgłaszania takich umów. .
@paweldremel5097
@paweldremel5097 7 күн бұрын
Jedno z rozwiązań Anonimizacja danych przed wysyłką: * Wyłapujesz wrażliwe dane i zastępujesz je znacznikami (np. {imie}, {pesel}) * Oryginalne dane trzymasz bezpiecznie w pamięci lokalnej Zapytanie do modelu: * Wysyłasz zanonimizowane zapytanie * Informujesz model, żeby w odpowiedzi zachował znaczniki Obróbka odpowiedzi: * Po otrzymaniu odpowiedzi, podstawiasz z powrotem oryginalne dane za znaczniki * Usuwasz tymczasowo przechowywane dane To jedno z możliwych rozwiązań - na pewno są też inne podejścia. Warto też pamiętać o skonsultowaniu takiego rozwiązania z zespołem prawnym pod kątem pełnej zgodności z RODO.
@1972kotek
@1972kotek 7 күн бұрын
@@paweldremel5097 Problem w tym, że mam dane także obrazowe (skany dokumentów) i anonimizacja nie jest doskonała. OCR potrafi coś tam przepuścić tak samo jak poprawne wyłapanie NER'ów. Lepiej mieć coś podpisane z dostawcą AI (zadanie dla prawników). Może ktoś w praktyce przechodził taki proces.
@marcingendek6103
@marcingendek6103 10 күн бұрын
Świetny materiał. Jest w stanie zaoszczedzić dużo czasu samemu eksperymentując z RAG.
@DataWorkshop
@DataWorkshop 7 күн бұрын
Dziękuję Marcin, staram się jak mogę :) jak mam kolejne dawki wiedzy, aby właśnie w tym pomóc @marcingendek6103
@romandmowski442
@romandmowski442 11 күн бұрын
Bardzo fajny odcinek. Czy ma sens uruchamianie LLM na MacBooku, gdzie mozemy miec M3 Max z pamiecia VRAM nawet 128 GB. To pozwoliloby uruchamiac calkiem duze modele np. Llama 3.1 70b?
@DataWorkshop
@DataWorkshop 7 күн бұрын
Roman, nie wiem co dokładnie masz na myśli, ale sprzęt o którym mówisz brzmi, że Bielik będzie tam latał. U mnie na M2 Bielik i dość szybko generuję odpowiedzi: dziesiątki tokenów na sekundę :). Llama 70B też pójdzie, tam nawet prawie f16 zmieści się :D. @romandmowski442
@etaosin
@etaosin 12 күн бұрын
Dzięki za ten materiał. Przyznam, że o wiele lepiej rozumiem to o czym mówisz, po tym jak próbowałem na własną rękę zaprząc ML, DL i LLM do rozwiązania moich problemów, które w dużej mierze sprowadzały się do automatyzacji.
@DataWorkshop
@DataWorkshop 7 күн бұрын
Dzięki :) No tak, to działa. Jak już człowiek spróbuje, to szybciej "łapie" kontekst. Jeszcze lepiej, jak sam popełni błąd, który go zaboli, i usłyszy, jakie są rozwiązania. Wtedy dopiero docenia to na maksa. Takie życie :)
@fw3239
@fw3239 14 күн бұрын
Świetny gość! Święte słowa, na końcu nagrania! Albo w tej rewolucji będziemy uczestniczyć jako Polska, albo będziemy klientami innych. Vladimir gratulacje kanału. Znajduje tu to czego szukam!😊
@DataWorkshop
@DataWorkshop 7 күн бұрын
Dziękuję :)
@alinabarcikowska4172
@alinabarcikowska4172 18 күн бұрын
trafiłam pierwszy raz - bardzo fajny materiał
@DataWorkshop
@DataWorkshop 7 күн бұрын
Alina, bardzo dziękuję, motywuję mi to, aby działać z tym dalej :). @alinabarcikowska4172
@wojciechm521
@wojciechm521 19 күн бұрын
Świetny odcinek👍
@DataWorkshop
@DataWorkshop 7 күн бұрын
Dziękuję Wojtek, miło to słyszeć :) @wojciechm521
@arseniybrazhnyk648
@arseniybrazhnyk648 19 күн бұрын
Dziękuję za odcinek, jak zawsze 10/10!) Czy mógłbyś nagrać film o transformerach oraz innych architekturach które potencjalnie mogą być wykorzystywane w przyszłości?
@DataWorkshop
@DataWorkshop 7 күн бұрын
Dziękuję za wysoką ocenę, to mnie bardzo motywuję :) Co do transformerów, to już bardziej techniczny temat i format podcastu nie zawsze sprawdza się. Na to mam osobny kurs NLP, gdzie krok po kroku tłumaczę temat, zaczynając od kontekstu jak do tego doszło, bo to jest pewna ewolucja i to pomaga lepiej zrozumieć. Kurs NLP: tinyurl.com/4wzfzbdb Tu jest wprowadzenie do tego modułu: kzbin.info/www/bejne/noDOn6iYr9GAhrs
@arseniybrazhnyk648
@arseniybrazhnyk648 Күн бұрын
@@DataWorkshop Dziękuję, już oglądam!)
@paweswierblewski1505
@paweswierblewski1505 22 күн бұрын
Czy taki runpod, vast, lambda czy inne nadają się na produkcję?
@DataWorkshop
@DataWorkshop 22 күн бұрын
Produkcja ma różne wymagania, ale co najmniej warto rozważyć te opcje. Zwykle jestem dość sceptyczny wobec różnych rzeczy, ale w tym przypadku nie odrzucam ich domyślnie. :)
@jakubzboina7246
@jakubzboina7246 22 күн бұрын
Comtegra GPU Cloud nadaje się na produkcje :D
@paweswierblewski1505
@paweswierblewski1505 22 күн бұрын
@@DataWorkshop Dzięki! A doprecyzowując, przede wszystkim chodzi o stabilność i dostępność.
@DataWorkshop
@DataWorkshop 22 күн бұрын
@@paweswierblewski1505 na runpod gwarantuję dwie dziewiątki uptime (99.99%) Też co fajne mają różne regiony (w tym EU, i faktycznie są tam też GPU, niż tylko nazwa regionu) + secure cloud. Z mojego doświadczenie, jak potrzebuję GPU to szybko je dostaję tam. Zostawię jeszcze tego linka: www.runpod.io/compliance Z minusem w runpod, to np. teraz nie mają H200 i w górę. Natomiast H100 też często jest właśnie tym co trzeba, biorąc pod uwagę za jaką cenę oferują.
@paweswierblewski1505
@paweswierblewski1505 21 күн бұрын
@@jakubzboina7246 A jaki jest pricing?
@tomaszb9668
@tomaszb9668 24 күн бұрын
Jak zwykle istotne informacje. Dzięki. Btw kiedy ma się odbyć wspomniany meetup?
@DataWorkshop
@DataWorkshop 7 күн бұрын
Tomasz, wydarzenie w Nvidia już się odbyło. Natomiast na spokojnie, będę dalej szerzył i dopracowywał te materiały. :) @tomaszb9668
@tomaszb9668
@tomaszb9668 25 күн бұрын
Bardzo merytorycznie. Super. Bardzo dziękuję za przekazana wiedzę. Pozdrawiam serdecznie.
@DataWorkshop
@DataWorkshop 7 күн бұрын
Dziękuję Tomasz :) działam, działam
@MT-rs1ot
@MT-rs1ot 25 күн бұрын
Potrafisz zdołować ale faktycznie lepiej by na początku wiedzieć czym grozi bezsensowne dzielenie tekstu niż potem burzyć całe wioski i stawiać od nowa. Super materiał
@Nxnnznjjxnnzm2
@Nxnnznjjxnnzm2 26 күн бұрын
Juz w 2021 probowalem z Bielikiem ale co dalej ze Spichlerzem podobnie sytuacja miala miejsce w 2023 r. Czy cos sie ruszylo trudno bylo sie dogadac jesli mialem tam stare dane i informcaje lacznie z osobami
@tomaszb9668
@tomaszb9668 26 күн бұрын
Nieoceniona wiedza szczególnie dla osób jak ja, którzy zaczynają z modelami LLM. Dzieki
@DataWorkshop
@DataWorkshop 7 күн бұрын
Tomasz, dziękuję :) Staram się jak mogę. @tomaszb9668
@marcintubielewicz206
@marcintubielewicz206 26 күн бұрын
Świetny odcinek Vladimir, dzięki za inspirację, lokalny model już śmiga na moim komputerze ;-)
@DataWorkshop
@DataWorkshop 7 күн бұрын
Marcin, no to super i właśnie o to chodzi! @marcintubielewicz206
@ghs7233
@ghs7233 28 күн бұрын
👌
@DataWorkshop
@DataWorkshop 7 күн бұрын
Dzięki :)
Ай бұрын
Bardzo przydatny materiał, dzięki!
@DataWorkshop
@DataWorkshop 7 күн бұрын
Dziękuję Bartek :)
@krucafuks123
@krucafuks123 Ай бұрын
fajne, ale trochę się gubiłem słuchając o toolach
@DataWorkshop
@DataWorkshop 7 күн бұрын
Tego trochę jest, ale na spokojnie, krok po kroku :)
@wisniowabron2253
@wisniowabron2253 Ай бұрын
Niby całki się nie pojawiają za bardzo, ale jednak na rozmowach rekrutacyjnych głównie takie pytania padają. Rozpisanie wzorów na lasso, na gradient itp ;)
@DataWorkshop
@DataWorkshop Ай бұрын
Mam wrażenie, że teraz to również się zmienia. Podnosi się także jakość takich rozmów :) Jednak wciąż zdarza się, że są one bardzo teoretyczne i oderwane od kontekstu. P.S. i.redd.it/9gcco4jdlc091.jpg
@cyrta
@cyrta Ай бұрын
Jednym z podstawowych problemów z tabelka liczb wrzucona na wejście LLM jest tokenizer. Wszystkie złe encodują długie sekwencje cyfr a zwłaszcza te z przecinkiem. Konieczne jest zmiana na poziomie tokenizera i fine tuning by to rozwiązać.
@DataWorkshop
@DataWorkshop Ай бұрын
Początek - super! Natomiast dalszy wniosek brzmi jak ciekawa przygoda aby spróbować, w szczególności jako fine-tuning, ale nie oczekiwałbym, że to pomoże :).
@indikom
@indikom Ай бұрын
Drobna uwaga językowa: bardzo często używasz słowa "utylizować". Podejrzewam, że stosujesz kalkę z angielskiego "utilize". Niestety, w języku polskim "utylizować" oznacza przetwarzanie odpadów na surowce wtórne, a nie używać czy wykorzystywać. Przepraszam, że się czepiam, ale jeśli często używasz tego słowa, to może warto zwrócić na to uwagę.
@DataWorkshop
@DataWorkshop Ай бұрын
Bardzo Ci dziękuję za uwagę! Super, że piszesz i to jeszcze w tak delikatny sposób :) Najśmieszniejsze w tej historii jest to, że przy współpracy w jednej z firm "nauczyli mnie tak mówić".  Masz rację, trzeba to poprawić. Będę uważał na to słowa, jak usłyszysz, że mówię "wykorzystać", to oznacza, że dzięki temu komentarzu :). Dzięki za to!
@etaosin
@etaosin 12 күн бұрын
Ja chyba też za długo w IT, siedzę, bo to utylizować mi jak 'apply' weszło, tak, że nawet nie zwróciłem uwagi. Dzięki
@NorbertWerblicki
@NorbertWerblicki Ай бұрын
Super odcinek , fajnie wytłumaczyłeś różnice między LLM i ML , i ogólnie odc jest bogaty w konkretna wiedze. Pozdrawiam.
@DataWorkshop
@DataWorkshop Ай бұрын
Bardzo dziękuję za miłe słowa! To prawdziwy miód na moje serce i motywacja, by działać i dzielić się jeszcze więcej - nawet jeśli robię to w wolnym czasie, na przykład w weekendy. Dziękuję, że o tym piszesz!
@NorbertWerblicki
@NorbertWerblicki Ай бұрын
@@DataWorkshop "Cieszę się i czekam na kolejne odcinki. Tymczasem nadrabiam oglądanie Twoich poprzednich materiałów."
@michakowalczyk9386
@michakowalczyk9386 Ай бұрын
Właśnie ostatnio próbowałem rozwiązania gdzie wyniki z anomaly detection wprowadzałem na LLM. Celem było znalezienie interpretacji dla anomalii a także zaklasyfikowanie lub nie danych bieżących do typu anomalii - no i jak to się mawia at the end of the day chyba lepiej byłoby użyć dla interpretacji klasyfikatora na sieci neuronowej. Nie mniej jednak niektóre interpretacje LLMa były bardzo ciekawe. Zaczynająć od tego, że sam tworzył dodatkowe klasy anomalii ;) Tak że zgadzam się LLM nie wyprze klasyka.
@DataWorkshop
@DataWorkshop Ай бұрын
Michał, dziękuję za podzielenie się historią. Bardzo dobry wniosek na koniec - w 100% się zgadzam, na teraz i przynajmniej w najbliższym czasie będzie to aktualne.
@fw3239
@fw3239 Ай бұрын
Ciekawy materiał. Fajna forma przekazu z zaproszeniem gościa, który podaje praktyczne przykłady użycia. Sam rozglądam się tu i tam, żeby zobaczyć jak firmy radzą sobie z wdrożeniami AI. Ogólnie teraz w dobie hype na AI wszyscy myślą, ze sztuczna inteligencja zdziała cuda i zastąpi nasze wszystkie niewydolne procesy. Niewiele się jednak mówi o tym, ze prawidłowo zaimplementowane standardowe procesy są znacznie stabilniejsze niż implementacja AI, którą trzeba potem bardzo pilnować.
@M10n8
@M10n8 Ай бұрын
hej, wspomniałeś o szkoleniu, możesz podesłać link? pozdrawiam PS rowniez stworzylem kilka ragow ale stwierdzilem ze to nie moze dzialac. Ogladajac ten film w koncu widze swiatelko w tunelu.
@alangner65langner47
@alangner65langner47 Ай бұрын
Przekazałeś sporo ciekawej wiedzy. Muszę poeksperymentować z Bielikiem
@DataWorkshop
@DataWorkshop 7 күн бұрын
Dziękuję, warto, warto :) Bo to wcale nie jest takie trudne, jak może się wydawać na początek
@dantedaante4640
@dantedaante4640 Ай бұрын
Świetny materiał. Bardzo dobrze tłumaczysz - miło się słucha i w głowie zostaje. Brawo.
@DataWorkshop
@DataWorkshop 7 күн бұрын
Dziękuję :) są już nowe odcinki
@maciej8989
@maciej8989 Ай бұрын
Dziękuję za super merytoryczną rozmowę🎉 oby więcej takich materiałów🙏
@DataWorkshop
@DataWorkshop 7 күн бұрын
Dziękuję, Maciej :) Pewnie będzie jeszcze jedna rozmowa z Remigiuszem, zobaczymy. Inspirująca osoba.
@dariuszmion2764
@dariuszmion2764 Ай бұрын
IMHO zbyt lakoniczne podejście do tematu... Brak technicznych informacji o minimalnych zasobach sprzętowych do uruchomienia Bielika
@DataWorkshop
@DataWorkshop Ай бұрын
Dariusz, dzięki za Twoją opinię! Serio, fajnie, że się odezwałeś. Masz rację - gdy ktoś już ogarnie podstawy, to czas iść krok dalej i odkrywać te bardziej złożone, zaawansowane rzeczy. Jak już się wie, to wtedy przechodzimy o krok dalej. Przy czym, to też nie jest "płaskie" (np. rozmowa o sprzęcie i wymaganiach). To jest trochę taka studnia bez dna... ale między innymi nad czym obecnie pracuje, to chcę pokazać jak robić bardziej zaawansowane self-hosted LLM używając GPU (inferencja modele LLM) i to tych większych modele 70B lub nawet 400B, ale ta wiedza z kolei będzie przydatna raczej tylko dla firm, kto chcę używać produkcyjnie. Myślę, że jeszcze zrobię materiał pomiędzy :). Zobaczymy, co się uda z tego wycisnąć! Jeszcze raz dzięki, że napisałeś i do usłyszenia!
@MasakraIsTheBest
@MasakraIsTheBest Ай бұрын
Baaardzo chciał bym się jeszcze dowiedzieć w jaki sposób podłączyć lokalny model językowy, na przykład Bielik do jakiegoś projektu z GitHub który normalnie korzysta np z api OpenAI. Lub tworząc aplikację w Python która będzie polegać na modelu Bielik Trapi mnie jeszcze jedno pytanie, czy instrukcje dla modelu, ten główny prompt, musi być zawsze w języku angielskim? Co jeżeli model np llava potrafi komunikować się w języku polskim to czy mogę przeredagować aplikacje na język Polski bez problemu. Mam nadzieję że dobrze wyjaśniłem. Dzięki za film🤓
@DataWorkshop
@DataWorkshop Ай бұрын
Dzięki za pytania :) Będę rozwijał wątek, warto obserwować. Osobno mam plan pokazać jakie możliwości daje LLM dla programistów (z resztą już sam inaczej koduję, niż wcześniej).
@archiee1337
@archiee1337 Ай бұрын
Bardzo fajny odcinek :) Co do embeddingow po polsku?
@DataWorkshop
@DataWorkshop Ай бұрын
wolę inaczej o tym myśleć, bardziej jaki jest problem do rozwiązania? Natomiast polecam co najmniej sprawdzić silver-retriever Piotrka, tu zobacz: huggingface.co/ipipan/silver-retriever-base-v1
@archiee1337
@archiee1337 Ай бұрын
Świetne video. Jaki embedding model polecasz do jezyka polskiego?
@DataWorkshop
@DataWorkshop 7 күн бұрын
Dziękuję :) Rożnie to bywa, ale zawsze możesz zacząć od Silver: huggingface.co/ipipan/silver-retriever-base-v1
@archiee1337
@archiee1337 Ай бұрын
powodzonka i propsy za wolontariat! niestety jak to u nas, trzeba robic fantastyczne rzeczy za free.... :(((
@MasakraIsTheBest
@MasakraIsTheBest Ай бұрын
Dziękuję za twoją pracę, w Polsce brakuje tak wartościowych kanałów
@DataWorkshop
@DataWorkshop Ай бұрын
Dziękuję za miłe słowa :)
@martaw5502
@martaw5502 Ай бұрын
Świetnie układa wiedzę to co opowiadasz. Czy możesz rozważyć podzielenie się jaki sprzęt / laptop proponujesz by zadowalająco działa na nim lokalny LLM?
@DataWorkshop
@DataWorkshop Ай бұрын
Dzięki :) Ze sprzętem bywa różnie, osobiście teraz używam M2 Mac Pro. Też pytanie, co chcesz osiągnąć. Jaki model chcesz uruchomić :). Mam w moim backlogu więcej o tym mówić, myślę, że i taki odcinek też może się pojawić.
@deklaracjadostepnosciinf-ys1uz
@deklaracjadostepnosciinf-ys1uz Ай бұрын
Czekam na każdy materiał i wciąż się uczę. Bardzo Ci dziękuję. Chcę jednak też ponarzekać:) Już kilka razy wspominałeś, że modele embeddingowe od OpenAI są słabe. Jednak chyba nigdy nie wspomniałeś, co lepiej wybrać. To taka podpucha?
@DataWorkshop
@DataWorkshop Ай бұрын
Dziękuję za miłe słowa, to motywuje :) Co do embeddingów. Wspomniałem już kilka razy MTEB leaderboard, to jest benchmark dla embeddingów. Oczywiście nadal trzeba traktować to jako jeden z leaderboardów (o tym osobno mówiłem już), czyli #1 wcale nie oznacza najlepszy dla Ciebie. huggingface.co/spaces/mteb/leaderboard OpenAI w tym leaderboardzie też jest obecna, co prawda ich najlepszy model na ten moment, jak piszę ten komentarz, jest na 27. pozycji i ma nazwę "text-embedding-3-large", czyli jak widzisz nie zawiera OpenAI w nazwie. Inne ich modele są jeszcze niżej. openai.com/index/new-embedding-models-and-api-updates/
@arseniybrazhnyk648
@arseniybrazhnyk648 Ай бұрын
Dzięki bardzo za materiał! Czy możesz rozwinąć temat dotyczący chankowania: czy z twojego punktu widzenia nie warto dzielić dokument na chanki, a zapisywać jako całość do wektorowej bazy danych i łączyć wyszukiwanie o słowa kluczowe z semantycznym wyszukiwaniem?
@DataWorkshop
@DataWorkshop Ай бұрын
No to już jakiś pomysł. Z mojego doświadczenia nie ma uniwersalnego rozwiązania. Wszystkie, które krążą, zbyt uogólniają (spłycają) temat. Ważne jest zacząć nie od technologii, tylko od rozwiązywania problemu i wtedy jest lepiej zrozumiałe, jak należy przechowywać dane. Polecam myśleć od tej strony.
@arseniybrazhnyk648
@arseniybrazhnyk648 Ай бұрын
@@DataWorkshop Dzięki za odpowiedź. Jeśli weźmiemy Twój przykład z filmiku -- wyszukiwanie informacji w sprawozdaniach finansowych dużych firm, które mają zazwyczaj 100+ stron, to jaką byś technikę wykorzystał? Interesuje mnie Twój sposób myślenia i podejście do rozwiązywania praktycznych problemów/wyzwań :)
@indikom
@indikom 2 ай бұрын
Tokenizer openAI dyskryminuje daltonistów! :))) Zacząłem kłócić się z ChatGPT, że ich tokenizer to samo zdanie podzielił na tokeny inaczej, ale okazało się, że sąsiadujące tokeny o odcieniach brązowego i zielonego zlały mi się w jeden kolor.
@jakubjanecki6064
@jakubjanecki6064 2 ай бұрын
Dobry materiał, dzięki 🎉. Naiwnie myślałem, że LLM ustrukturyzuje mi dane bez względu na format i będę się cieszył poprawnym outputem beż wysiłku neuronów 😂
@DataWorkshop
@DataWorkshop 2 ай бұрын
No jednak, nadal trzeba myśleć :)
@runnerwithwolves8369
@runnerwithwolves8369 2 ай бұрын
Super materiały! Dzięki!
@DataWorkshop
@DataWorkshop 2 ай бұрын
Dziękuję :)
@ghs7233
@ghs7233 2 ай бұрын
Vlad, aby uzyskać powtarzalność odpowiedzi musimy startować zawsze w tym samym miejscu sieci, w gpt odpowiada za to parametr 'seed': def generate_response(client, messages): response = client.chat.completions.create( model=DEPLOYMENT_NAME, messages=messages, #max_tokens=8000, seed=1 ) return response.choices[0].message.content co do 'wyrzucenia chunków'. czyli jak nie chunki to co? przecież nie ma alternatywy. po prostu trzeba używać dynamicznego chunkowania i z 60% skuteczności robi się 90%. Pzdr
@KatarzynaSzydo
@KatarzynaSzydo 2 ай бұрын
Jesteście głupi
@marekjankozlowski5929
@marekjankozlowski5929 2 ай бұрын
Dziekuje, nareszcie znalazlem informacje o AI in NLP po Polsku.
@DataWorkshop
@DataWorkshop Ай бұрын
Marek, warto obserwować :)
@mxlinuxpl
@mxlinuxpl 2 ай бұрын
Świetna, doskonała rozmowa, wyjaśnienia, wiedza! Dzięki!
@DataWorkshop
@DataWorkshop Ай бұрын
Dziękuję :)