DeepSeek R1 - Darmowy konkurent o1? Test/recenzja nowego modelu OpenSource.

Рет қаралды 16,963

SmartTech Synergy

Күн бұрын

Пікірлер: 56

@sgrzes123 56 минут бұрын

Krótko, zwięźle, rzeczowo. Jak dla mnie bomba👍🏻

@dawidszyszko Күн бұрын

Tutaj się liczy stosunek ceny do jakości, ten model daje niesamowite wyniki w porównaniu ile kosztuje jego utrzymanie, większość osób nie będzie używało aystenta AI do kodowania czy rozwiązywania zadań tylko do prostych codziennych czynności. Jeśli chodzi o zadania z kodowania, jako użytkownik Copilota mogę powiedzieć, że jeszcze długa droga przed nami, zanim te narzędzia będą godne zaufania.

@dariuszmion2764 18 сағат бұрын

Dzieki, ale Czy możesz powtórzyć te testy za jakiś czas ?

@InfidelAtWork 18 сағат бұрын

Czekam na test po angielsku o którym wspomniałeś w którymś z komentarzy poniżej. Ja z AI korzystam tylko po angielsku, zwłaszcza DeepSeek i ze skryptami do Unity Engine radzi sobie całkiem dobrze. Robię to jednak krok po proku (nie daję tyle zadania w jednym żądaniu) z zadaniem modyfikacji kodu i wychodzi dla mnie wystarczająco dobrze.

@artura3553 3 күн бұрын

super film, ciekawe wnioski, dziękuję za trud testowania R1

@inout3394 6 күн бұрын

Ten model operuje na języku Chińskim i Angielskim najlepiej, język Polski to mało znany margines, nie ma go dobrze obeznanego. Polecam zrobić testy ponownie po Angielsku. I wtedy będzie to jakoś wiarygodne.

@wpheelp 6 күн бұрын

Tak też już to zauważyłem przykładowo bawię się modelem chatgpt o4-mini i o ile po angielsku prawidłowo uruchomi narzędzie według podanego promptu, prawidłowo zrozumie kontekst to w języku polskim często są z tym problemy. Tak jakby słabiej rozumiał inny język niż angielski. To prawdopodobnie dotyczy każdego modelu.

@SmartTechSynergy 5 күн бұрын

Odnosząc się do komentarzy o testowaniu nie po angielsku: 1. To test porównawczy. Jak wspomniałem na wstępie - wszystkie modele testuję tak samo, dzięki temu da się porównać ich wyniki 2. DeepSeek v3 z tym samym testem po polsku poradził sobie znacznie lepiej Nie zmienia to faktu, że mój końcowy wniosek może faktycznie okazać się na wyrost, jeśli po angielsku R1 nie wykaże tych samych problemów. W związku z tym przeprowadzę i nagram test także po angielsku.

@adamwawrzynkowski6876 5 күн бұрын

Dziękuję, wiesz tu nie chodzi o hejt czy coś takiego - po prostu porównałeś wyniki do benchmarków co jest niezbyt właściwe jeżeli były one w j. angielskim. Tak czy inaczej jak zawsze doceniam poświęcony czas i chętnie oglądam Twoje materiały

@SmartTechSynergy 5 күн бұрын

>tu nie chodzi o hejt Nawet mi to przez myśl nie przeszło. Krytyczne uwagi zawsze mile widziane 👍

@BuggiEU 3 күн бұрын

Wszystkie modele testujesz tak samo ale nie wszystkie modele mają taką samą zdolność obsługi polskiego bo nie są do tego trenowane. To tak jakby kazać maratończykowi biec sprint i potem tłumaczyć że przecież wszyscy mieli do przebiegnięcia 100 metrów więc szanse były równe.

@PPP-on3vl Күн бұрын

@@SmartTechSynergyto nie potrafi mówić

@nopopacz 3 күн бұрын

like za szybkie podjęcie tematu

@AdamQ1984 4 күн бұрын

Jaki model dla Kali linuxa, aby można było nieco pobroić?

@adamwawrzynkowski6876 6 күн бұрын

Niestety test jest niewiarygodny z uwagi na użycie języka polskiego - lepiej byłoby to powtórzyć

@adamwawrzynkowski6876 6 күн бұрын

dodam że promptujac po angielsku w moim teście r1 uzyskał prawie 100% success rate z programowania. W Twoim teście ma… 0

@kubamaskub9012 6 күн бұрын

Zgadzam się, sztuczna inteligencja od openAI jest mocno wytrenowana z polskiego community i ma duże zestawy z których może brać dane. Tutaj to jeszcze nie jest tak popularne i nawet nie miało kiedy się rozwinąć.

@HenrykBarbossa 5 күн бұрын

Odzczuwam różnice nawet wtedy, kiedy korzystam z llm w przeglądarce lub aplikacji. W mowie trawie każdy LLM sprawuje się świetnie. Co do deepseek to mamy do czynienia z klasycznym chinskim produktem, o jakości wprost proporcjonalnej do kosztu. On trąca towarem zakupionym na Temu P.S co do monitów, warto treść promptów przeredagować wykorzystując inny LLM.

@MM_Legacy 3 күн бұрын

na reddicie już zauważyli, że Deepseek zapytany o model, czasem przedstawia się jako Deepseek, czasem jako GPT, a czasem jako Claude, co budzi trochę pytań. No i zapytany o plac Tiananmen cenzuruje odpowiedź. Model uczony pod chińską narrację polityczną to dla mnie czerwona flaga.

@ryczkowsky 6 күн бұрын

Testuje R1 poprzez api na vsc z Cline i rzeczywiście, różnica jest zauważalna do o1 lub Claude 3.5 sonnet, choć różnica w kosztach jest też mocno zauważalna. Też zadaje pytanie: Ile słów będzie liczyć twoja odpowiedź na to pytanie? Każdy się wyłożył. Pozdrawiam

@-mikoaj-3019 5 күн бұрын

ile słów będzie liczyła teraz twoja odpowiedź? Ta odpowiedź zawiera pięć słów. za pierwszym razem odpowiedział dobrze

@nikolakraljevic6484 5 күн бұрын

Niestety, nie jest to wszystko tak jednoznaczne, jak wynika z tych testów. Próbowałem dokładnie tego samego zadania z Tragaczem i Badaczem. Na tak uproszczone pytanie, jak to pokazano w wideo, ChatGPT O1 myślał długo, po drodze wymyślił jakieś nieistniejące założenia i ostatecznie udzielił niepoprawnej odpowiedzi. DeepSeek R1 myślał bardzo, bardzo długo - już myślałem, że się zapętlił - może z 5 minut. Wygenerował bardzo dużo „rozważań”, ale w końcu podał poprawną odpowiedź, chociaż w międzyczasie przeszedł na angielski. Ale co ciekawe, zwykły DeepSeek, bez „DeepThinking”, udzielił natychmiastowej i poprawnej odpowiedzi na to pytanie. Spróbujcie sami kilkukrotnie w nowych czatach i zobaczycie.

@nikolakraljevic6484 5 күн бұрын

@@zbyti Zgadzam się. Testowanie modeli przy użyciu jednego pytania nie oddaje rzeczywistej "inteligencji" modelu, ponieważ wynik może być czysto przypadkowy. Aby uzyskać bardziej wiarygodne wyniki, należałoby przeprowadzić eksperyment na znacznie większą skalę. Proponuję otworzyć 100, a najlepiej 1000 nowych sesji dla każdego modelu, zadając w każdej z nich dokładnie to samo pytanie. Następnie należałoby zebrać dane i przeanalizować statystyki - zarówno poprawność odpowiedzi, jak i konsystencję w generowanych wynikach. Powtórzenie tego procesu dla wszystkich porównywanych modeli pozwoliłoby uzyskać bardziej obiektywny obraz ich możliwości. Testowanie pojedynczym pytaniem jest zbyt podatne na losowość generowania odpowiedzi i nie oddaje w pełni potencjału ani ograniczeń modeli językowych.

@cybernetic-ransomware1485 Күн бұрын

@@nikolakraljevic6484 statystyka zaczyna się od miliardowych populacji. Także równie dobrze chłopskorozumowe 1000 testów może okazać się zmarnowaniem czasu i zasobów. Mniejsze prawdopodobieństwo, niż przy 100, ale wciąż zgodne z Gaussem. Pytanie kto ma zasoby na takie badania? Nie znam, więc przy braku dostępu do lepszej metodyki nie krzyczę "o kant d... rozbić takie porównanie", a nawet uważam, że te subiektywne testy przy podanej metodyce są o wiele lepsze, niż podanie tabelki wartości wskaźników uzyskanych w kolejnym generycznym benchmarku bez zagłębiania się w metodykę.

@nikolakraljevic6484 21 сағат бұрын

@@cybernetic-ransomware1485 chłopskorozumowe jest akurat myśleć że "statystyka zaczyna się od miliardowych populacji". Tak się składa, że zajmuję się statystyką i często badamy znacznie mniejsze populacje. Gdyby zawsze były potrzebne wyłącznie miliardowe populacje, jak twierdzisz, nie dałoby się obliczyć na przykład średnich zarobków Polaków. Zadanie jednego pytania modelowi MML jest zdecydowanie niewystarczające, aby dostrzec jakąkolwiek zależność lub tendencję. Natomiast zadanie tego samego pytania 10 razy temu samemu modelowi pozwala lepiej zrozumieć, jak dobrze on działa.

@mariope5712 2 күн бұрын

Świetny materiał, kiedy zobaczyłem pierwsze informacje o R1 spodziewałem się, że moze wykazywać skłonności do overfitting'u. Próbowałeś przeprowadzać testy po angielsku, jesli tak to czy są różnice w wynikach miedzy testami po polsku? (zauważyłem że ChatGPT lepiej sobie radzi gdy promptujesz po angielsku)

@SmartTechSynergy 2 күн бұрын

Tak, testy po angielsku są już zrobione (~te same zadania), będzie część 2 z tymi testami w tym tygodniu. Na konkluzje poczekajmy do filmu ;)

@57-Mar-Mar 6 күн бұрын

Hej. Tak tylko mała uwaga. W teście jest chyba błąd: "ktoś bierze szklankę ze stołu i wkłada i piekarnika". Powinno chyba być "do piekarnika"

@SmartTechSynergy 5 күн бұрын

Brawo za czujność! Pierwszy raz ktoś to zauważył :) Tak, literówka była zrobiona przed pierwszym użyciem testu, a później już musiała zostać, żeby każdy model miał równe szanse.

@57-Mar-Mar 5 күн бұрын

@SmartTechSynergy achaaaa to ciekawe... Czyli modele AI gdy widzą takie zdanie to traktują to jako błąd, tak? Po prostu one były trenowane na innych danych i wyrażenia, spoza bazy danych na ktorych były trenowane, uznają jako błąd. Nawet jeśli użytkownik miał coś innego na myśli i celowo tak napisał, to model AI ze względu na to że nie spotkał się z takim wyrażeniem podczas trenowania to uzna cos takiego jako błąd, tak?

@SmartTechSynergy 5 күн бұрын

Nie generalizowałbym tego. Błąd to szerokie pojęcie i może kompletnie zmienić sens. Ale w tym konkretnym przypadku, na wszystkie testowane dotąd modele nie spotkałem się żeby któryś źle zinterpretował zadanie z powodu tej literówki.

@DarekB2 5 күн бұрын

o1 robi te same bledy co R1 w programowaniu. Serio 10razy mu pokazuje gdzi jest blad, on mi mowi ze poprawi, nadal nie dziala, poprawia, nie kompiluje sie, ja mu mowie gdzie blad i tak w kolo macieju, daje mu znowu dobry kod moj dzialajacy, ma go podzielic na mniejsze metody wraz go zmienia pod wzgledem logicznym i nie dziala.. Takze ..

@wojciechxd4898 2 күн бұрын

copilot jeszcze gorszy

@BuggiEU 3 күн бұрын

Bezcelowe jest testownie promptami w języku polskim modelu który nie deklaruje natywnej obsługi polskiego (czyli chyba jakiegokolwiek liczącego się modeluj). Poza tym nie ma mniejszych wersji tego modelu, są wersje Llamy i Qwena trenowane na wytworach R1.

@ventor11111 6 күн бұрын

Przy pierwszym zadaniu napisalbym prompta o cały zmodyfikowany kod. I wtedy myślę byłaby lepiej

@kloszi 6 күн бұрын

Tutaj się zgodzę. Jest to wynik tego że jest też w wersji bezpłatnej zoptymalizowany do krótkich i zwięzłych informacji i jeszcze to w zależności od odciążenia serwera.

@KindkompPl 5 күн бұрын

Nie na tym test polega. Chodzi o porównanie jabłek do jabłek. Żaden model w tym teście nie dostawał dodatkowych istrukcji, jest to z resztą wyjaśnione w 2:54

@robertmoteka Күн бұрын

testowałem R1 i po dzisiejszej burzy medialnej głównie dostawałem że serwery są overloaded

@llllxxxxllll 2 күн бұрын

Autor nagrania użył chyba najmniejszej wersji modelu, u mnie poradził sobie dużo lepiej z wymienionymi zadaniami.

@juzwa1978 2 күн бұрын

Ale ten model kosztował podobno ok 5 mln dolarów i jest jeszcze w fazie testów , GTP kosztował 1000 x więcej i czy jest 1000x lepszy?? To jest własnie to , chiński produkt zawsze ma dobry stosunek jakości do ceny i nie oznacza to że jest najlepszy

@piker-pl 2 күн бұрын

Nie, to zasada działania jakiegokolwiek rozwoju - każdy kolejny etap kosztuje nieporównywalnie więcej od poprzedniego. Tak już jest i trzeba sobie zawsze zadawać pytanie gdzie warto wysiadać z tego pociągu, a gdzie dalej sypać pieniądze. Chińczycy jak zawsze są mistrzami w dostarczaniu taniego, ale jako takiego produktu. Nie ma sensu ścigać się z OpenAI, natomiast tania alternatywa zawsze znajdzie miejsce na rynku.

@slyvek2 3 сағат бұрын

Spedzilem kilkanascie godzin z R1 i o1, i jesli chodzi o programowanie to o1 zdecydowanie wygrywa, ale juz 4o jest dosc porownywalny, moze 4o minimalnie lepszy niz r1. Typowe pytanie o pierdoly - tutaj r1 daje rade

@marcinkeczek4128 2 күн бұрын

"Program w HTMLu"... nie oglądam dalej.

@DariuszSadurski 5 күн бұрын

Takie same błędy, a nawet bardziej durne robią konkurencyjne systemy.

@PaweAdamowicz1981 5 күн бұрын

Leci minus za polski język w promptach. Oceniasz nie SI, a jej znajomość rozumienia języka.

@PaweAdamowicz1981 5 күн бұрын

@zbyti To niech mówi od razu, że nie ocenia SI a jego zrozumienie dla danego języka. Deepseek to ostry przekozak, a w tych testach wygląda jak jakiś roczny dinozaur.

@BuggiEU 3 күн бұрын

@@zbyti Przy pytaniu zadanym po polsku model "myśli" po angielsku więc jest to język natywny równorzędny z chińskim. Przy bardziej egzotycznych językach takich jak polski jest bariera wynikające z rozumienia poleceń i tłumaczenia odpowiedzi.

@mirek190 5 күн бұрын

Czemu rozmawiasz z nim po polsku? Przeciez zadania w Polskim jezyku sa wykonywane o wiele gorzej ... dawno to udowodniono w testach. Test jest bardzo malo wiarygodny z tego powodu.

@007arek Күн бұрын

Przecież wiarygodność tutaj nie jest zachwiana, tylko trzeba dobrze interpretować test.

@kartrok3072 9 сағат бұрын

Przede wszystkim nie jest darmowy i otwarty, trzeba się logować i przekazywać dane.

@Bob-I_accepted 2 күн бұрын

Wczoraj uruchomiłem i jestem pod wrażeniem 👍 To co w usach jest splugawione cenzurą i religijnością r1 wymienia wszystkich ponkolei bogów zapisanych w biblii. Co inne modele nie potrafią sukiennic ponad 5 sztuk. 😏😉😁

@maciejszarat9408 2 күн бұрын

Zapomniałeś dodać że to materiał sponsorowany co? Test który ma skompromitować konkretne narzędzie… przede wszystkim jest darmowe i dzięki temu zyska społeczność a po czasie stanie się lepszy przez to