Bardzo merytorycznie. Super. Bardzo dziękuję za przekazana wiedzę. Pozdrawiam serdecznie.
@DataWorkshop3 ай бұрын
Dziękuję Tomasz :) działam, działam
@runnerwithwolves83695 ай бұрын
Super materiały! Dzięki!
@DataWorkshop5 ай бұрын
Dziękuję :)
@marcingendek61033 ай бұрын
Świetny materiał. Jest w stanie zaoszczedzić dużo czasu samemu eksperymentując z RAG.
@DataWorkshop3 ай бұрын
Dziękuję Marcin, staram się jak mogę :) jak mam kolejne dawki wiedzy, aby właśnie w tym pomóc @marcingendek6103
@deklaracjadostepnosciinf-ys1uz4 ай бұрын
Czekam na każdy materiał i wciąż się uczę. Bardzo Ci dziękuję. Chcę jednak też ponarzekać:) Już kilka razy wspominałeś, że modele embeddingowe od OpenAI są słabe. Jednak chyba nigdy nie wspomniałeś, co lepiej wybrać. To taka podpucha?
@DataWorkshop4 ай бұрын
Dziękuję za miłe słowa, to motywuje :) Co do embeddingów. Wspomniałem już kilka razy MTEB leaderboard, to jest benchmark dla embeddingów. Oczywiście nadal trzeba traktować to jako jeden z leaderboardów (o tym osobno mówiłem już), czyli #1 wcale nie oznacza najlepszy dla Ciebie. huggingface.co/spaces/mteb/leaderboard OpenAI w tym leaderboardzie też jest obecna, co prawda ich najlepszy model na ten moment, jak piszę ten komentarz, jest na 27. pozycji i ma nazwę "text-embedding-3-large", czyli jak widzisz nie zawiera OpenAI w nazwie. Inne ich modele są jeszcze niżej. openai.com/index/new-embedding-models-and-api-updates/
@jakubjanecki60645 ай бұрын
Dobry materiał, dzięki 🎉. Naiwnie myślałem, że LLM ustrukturyzuje mi dane bez względu na format i będę się cieszył poprawnym outputem beż wysiłku neuronów 😂
@DataWorkshop5 ай бұрын
No jednak, nadal trzeba myśleć :)
@suczizapatrap375912 күн бұрын
Hej, skoro odradzasz chunking - to co w zamian? Buduję właśnie RAG, który ma być doradcą dla kandydatów na moją uczelnię - używam programów kierunków w PDFach, które mają po 200-300 stron. Wszystkie tutoriale/filmy, z jakimi się zetknąłem mówią o chunkingu, czy można to rozwiązać w jakiś inny sposób?
@DataWorkshop12 күн бұрын
Mainstream rzeczywiście często upraszcza temat :) To właśnie dlatego zacząłem nagrywać materiały, w których pokazuję alternatywne podejście, które sprawdza się w praktyce. Trzeba jednak doprecyzować, że "chunking" może mieć różne znaczenia. To, co odradzam, to mechaniczne dzielenie PDF-ów na fragmenty (np. co 500 znaków) - "krojenie na plasterki", a następnie wrzucanie ich do bazy wektorowej. Taka metoda często prowadzi do chaotycznych wyników, ponieważ model nie ma pełnego kontekstu i nie potrafi poprawnie zinterpretować treści. Zamiast tego warto podejść do danych z większym szacunkiem i starannie zaprojektować cały proces. Kluczowe jest tworzenie map wiedzy, czyli logicznej struktury, która odzwierciedla powiązania między różnymi fragmentami informacji. Wymaga to myślenia i odpowiedniego przygotowania danych - niestety, nie ma narzędzia, które zrobi to za nas w pełni automatycznie. Więcej o takich podejściach uczę na moim kursie "Praktyczny LLM". Jeśli chcesz dowiedzieć się więcej, zapraszam do zapisania się na listę chętnych - jeszcze zdążysz! 😊 👉 bit.ly/49VJXf5 @suczizapatrap3759
@M10n84 ай бұрын
hej, wspomniałeś o szkoleniu, możesz podesłać link? pozdrawiam PS rowniez stworzylem kilka ragow ale stwierdzilem ze to nie moze dzialac. Ogladajac ten film w koncu widze swiatelko w tunelu.
@DataWorkshop19 күн бұрын
Polecam zapisać się na listę chętnych tutaj: bit.ly/49VJXf5
@archiee13374 ай бұрын
Świetne video. Jaki embedding model polecasz do jezyka polskiego?
@DataWorkshop3 ай бұрын
Dziękuję :) Rożnie to bywa, ale zawsze możesz zacząć od Silver: huggingface.co/ipipan/silver-retriever-base-v1
@arseniybrazhnyk6484 ай бұрын
Dzięki bardzo za materiał! Czy możesz rozwinąć temat dotyczący chankowania: czy z twojego punktu widzenia nie warto dzielić dokument na chanki, a zapisywać jako całość do wektorowej bazy danych i łączyć wyszukiwanie o słowa kluczowe z semantycznym wyszukiwaniem?
@DataWorkshop4 ай бұрын
No to już jakiś pomysł. Z mojego doświadczenia nie ma uniwersalnego rozwiązania. Wszystkie, które krążą, zbyt uogólniają (spłycają) temat. Ważne jest zacząć nie od technologii, tylko od rozwiązywania problemu i wtedy jest lepiej zrozumiałe, jak należy przechowywać dane. Polecam myśleć od tej strony.
@arseniybrazhnyk6484 ай бұрын
@@DataWorkshop Dzięki za odpowiedź. Jeśli weźmiemy Twój przykład z filmiku -- wyszukiwanie informacji w sprawozdaniach finansowych dużych firm, które mają zazwyczaj 100+ stron, to jaką byś technikę wykorzystał? Interesuje mnie Twój sposób myślenia i podejście do rozwiązywania praktycznych problemów/wyzwań :)
@marcin313616 күн бұрын
I na tym się skup- naukowo i krytycznie nt. technologii, bo to rozumiesz. Filozofem AI/ DS już nie zostaniesz ("Nie gońcie za ułudą!"~` Biblia)
@DataWorkshop16 күн бұрын
Dziękuję Marcin i odpowiem też cytatem: "Wszystko badajcie, a co szlachetne - zachowujcie" :)