LangChain, RAG i wektorowe bazy: ciemna strona prototypowania AI

Рет қаралды 3,434

DataWorkshop

Күн бұрын

Пікірлер: 16

@rafaplis Ай бұрын

Dzięki za materiał.

@DataWorkshop Ай бұрын

Dziękuję :)

@paweswierblewski1505 25 күн бұрын

Super przykłady z mentorem, egzaminem i helpdeskiem! A jak wygląda kwestia zapewnienia bezpieczeństwa używania prywatnej bazy wiedzy przez LLM? Czy są jakieś certyfikaty cybersec albo dobre praktyki, bez których w ogóle nie ma zaczynanych rozmów?

@DataWorkshop Күн бұрын

Dziękuję, Paweł! :) Swoją drogą, jeden z tych projektów jest już zrealizowany, a inny dotarł do punktu, w którym można zacząć działać (jak zawsze, formalności i ustalanie zasad zajmują trochę czasu). To oznacza, że bezpośrednio nie będę mógł dzielić się wnioskami, ale na pewno postaram się przekazać pewne przemyślenia. Warto obserwować!

@sipsiup Ай бұрын

Zgadzam się z Twoim spostrzeżeniem odnośnie dyskusji z klientem na temat „że dane są ważne”. Zwykle jak się temat głębiej podrąży to klient nie końca rozumie czym są dane ? Czy ufasz swoim danym ? - to są trudne pytania dla klienta. Ja się dużo nad tym zastanawiam i chyba tu chodzi o to że dane to jest „coś abstrakcyjnego” trudno sobie komuś kto w tym nie siedzi wyobrazić dane bo jest to dość abstrakcyjna materia. Przykład - idzie człowiek do sklepu i widzi słoik z dżemem - prosta sprawa widzisz słoik, dotykasz, otwierasz , wąchasz, smakujesz i jest to rzeczywiste, ale jak zrobisz reprezentację tego słoik z dżemem w danych to już nie jest takie proste do uchwycenia przez kogoś kto w tym nie siedzi. A gdybyś nigdy nie widział tego słoika z dżemem w realu ? to zrozumienie i dostrzeżenie tego słoika z samych danych jest po prostu trudne dla naszego mózgu… co o tym myślisz?

@DataWorkshop Ай бұрын

No, ciekawa analogia! Tak, dane zdecydowanie są utworem konceptualnym, którym trzeba zarządzać. To nie ziemniaki czy dżem, które po prostu masz lub nie masz. Dzięki za ten przykład, pobudza wyobraźnię

Ай бұрын

Jakiej najlepiej używać baz danych do przechowywania tekstów z których mają być komponowane prompty i role w LLM?

@DataWorkshop Ай бұрын

Tu nie ma idealnej odpowiedzi, zresztą są co najmniej trzy rzeczy do rozważenia: 1. gdzie fizycznie są przechowywane dane, 2. jak są strukturyzowane (np. płaska struktura, grafy itp.), 3. sposób, w jaki będziemy je wyszukiwać (klasyczna wyszukiwarka, embeddings itp.). Do tego dochodzą jeszcze inne wymagania: - jak często będą dane aktualizowane, - jaka będzie skala (raz na dzień czy miliony zapytań, lub coś pomiędzy), - kwestie związane z prywatnością i rolami. Natomiast, jeśli chodzi o bazę wektorową, faktycznie czasami może być przydatna jako wyszukiwarka. Jednak, co podkreślam, proces wyszukiwania można zorganizować na różne sposoby, w zależności od problemu, który rozwiązujemy. Na przykład w tematach prawnych lub podobnych, gdzie precyzja jest bardzo ważna, same wektory mogą wprowadzać dużo zamieszania i niepewności.

@1972kotek Ай бұрын

Jak powinno się prawidłowo przeprowadzić wdrożenie rozwiązania używającego model LLM gdzie w zapytaniach pojawiają się dane podlegające RODO a użycie modelu lokalnego jest problematyczne? Jakieś umowy z dostawcą API (OpenAI, Google) czy inaczej do tego podjeść?

@DataWorkshop Ай бұрын

To jest już pytanie wprost dla prawników, dlatego polecam podejść do tematu od tej strony. Ważne jest, że nawet jeśli prawnik już coś przygotował komuś innemu, nie należy kopiować tego jeden do jednego. Każdy biznes jest (trochę) inny i ma swoje specyficzne potrzeby. Moja rola w tej rozmowie polega na zwracaniu uwagi na to, co jest istotne i na pytania, które prawnicy mogą zadawać, ustalając szczegóły. Natomiast nie jest prawnikiem, jestem od strony biznesowej, konceptualno-technicznej. Dla środowiska Enterprise to, co gwarantuje (prawnie) Vertex AI (Google) czy Azure (Microsoft), może być akceptowalne, ale nie zawsze. W większych chmurach, na przykład, istnieje możliwość przetwarzania danych tylko w UE (to dla RODO jest ważne), a dodatkowo zapewniają one szereg innych elementów wymaganych przez RODO. Jeszcze raz powtórzę, polecam przepracować temat RODO bezpośrednio z prawnikiem. To pewna inwestycja, ale zazwyczaj warto ją ponieść. @1972kotek

@1972kotek Ай бұрын

@@DataWorkshop Temat trafi do prawników. Szukałem jakiś informacji od kogoś kto ten proces przećwiczył. OpenAI ma stronę do zgłaszania takich umów. .

@paweldremel5097 Ай бұрын

Jedno z rozwiązań Anonimizacja danych przed wysyłką: * Wyłapujesz wrażliwe dane i zastępujesz je znacznikami (np. {imie}, {pesel}) * Oryginalne dane trzymasz bezpiecznie w pamięci lokalnej Zapytanie do modelu: * Wysyłasz zanonimizowane zapytanie * Informujesz model, żeby w odpowiedzi zachował znaczniki Obróbka odpowiedzi: * Po otrzymaniu odpowiedzi, podstawiasz z powrotem oryginalne dane za znaczniki * Usuwasz tymczasowo przechowywane dane To jedno z możliwych rozwiązań - na pewno są też inne podejścia. Warto też pamiętać o skonsultowaniu takiego rozwiązania z zespołem prawnym pod kątem pełnej zgodności z RODO.

@1972kotek Ай бұрын

@@paweldremel5097 Problem w tym, że mam dane także obrazowe (skany dokumentów) i anonimizacja nie jest doskonała. OCR potrafi coś tam przepuścić tak samo jak poprawne wyłapanie NER'ów. Lepiej mieć coś podpisane z dostawcą AI (zadanie dla prawników). Może ktoś w praktyce przechodził taki proces.