Tutaj się liczy stosunek ceny do jakości, ten model daje niesamowite wyniki w porównaniu ile kosztuje jego utrzymanie, większość osób nie będzie używało aystenta AI do kodowania czy rozwiązywania zadań tylko do prostych codziennych czynności. Jeśli chodzi o zadania z kodowania, jako użytkownik Copilota mogę powiedzieć, że jeszcze długa droga przed nami, zanim te narzędzia będą godne zaufania.
@dariuszmion276418 сағат бұрын
Dzieki, ale Czy możesz powtórzyć te testy za jakiś czas ?
@InfidelAtWork18 сағат бұрын
Czekam na test po angielsku o którym wspomniałeś w którymś z komentarzy poniżej. Ja z AI korzystam tylko po angielsku, zwłaszcza DeepSeek i ze skryptami do Unity Engine radzi sobie całkiem dobrze. Robię to jednak krok po proku (nie daję tyle zadania w jednym żądaniu) z zadaniem modyfikacji kodu i wychodzi dla mnie wystarczająco dobrze.
@artura35533 күн бұрын
super film, ciekawe wnioski, dziękuję za trud testowania R1
@inout33946 күн бұрын
Ten model operuje na języku Chińskim i Angielskim najlepiej, język Polski to mało znany margines, nie ma go dobrze obeznanego. Polecam zrobić testy ponownie po Angielsku. I wtedy będzie to jakoś wiarygodne.
@wpheelp6 күн бұрын
Tak też już to zauważyłem przykładowo bawię się modelem chatgpt o4-mini i o ile po angielsku prawidłowo uruchomi narzędzie według podanego promptu, prawidłowo zrozumie kontekst to w języku polskim często są z tym problemy. Tak jakby słabiej rozumiał inny język niż angielski. To prawdopodobnie dotyczy każdego modelu.
@SmartTechSynergy5 күн бұрын
Odnosząc się do komentarzy o testowaniu nie po angielsku: 1. To test porównawczy. Jak wspomniałem na wstępie - wszystkie modele testuję tak samo, dzięki temu da się porównać ich wyniki 2. DeepSeek v3 z tym samym testem po polsku poradził sobie znacznie lepiej Nie zmienia to faktu, że mój końcowy wniosek może faktycznie okazać się na wyrost, jeśli po angielsku R1 nie wykaże tych samych problemów. W związku z tym przeprowadzę i nagram test także po angielsku.
@adamwawrzynkowski68765 күн бұрын
Dziękuję, wiesz tu nie chodzi o hejt czy coś takiego - po prostu porównałeś wyniki do benchmarków co jest niezbyt właściwe jeżeli były one w j. angielskim. Tak czy inaczej jak zawsze doceniam poświęcony czas i chętnie oglądam Twoje materiały
@SmartTechSynergy5 күн бұрын
>tu nie chodzi o hejt Nawet mi to przez myśl nie przeszło. Krytyczne uwagi zawsze mile widziane 👍
@BuggiEU3 күн бұрын
Wszystkie modele testujesz tak samo ale nie wszystkie modele mają taką samą zdolność obsługi polskiego bo nie są do tego trenowane. To tak jakby kazać maratończykowi biec sprint i potem tłumaczyć że przecież wszyscy mieli do przebiegnięcia 100 metrów więc szanse były równe.
@PPP-on3vlКүн бұрын
@@SmartTechSynergyto nie potrafi mówić
@nopopacz3 күн бұрын
like za szybkie podjęcie tematu
@AdamQ19844 күн бұрын
Jaki model dla Kali linuxa, aby można było nieco pobroić?
@adamwawrzynkowski68766 күн бұрын
Niestety test jest niewiarygodny z uwagi na użycie języka polskiego - lepiej byłoby to powtórzyć
@adamwawrzynkowski68766 күн бұрын
dodam że promptujac po angielsku w moim teście r1 uzyskał prawie 100% success rate z programowania. W Twoim teście ma… 0
@kubamaskub90126 күн бұрын
Zgadzam się, sztuczna inteligencja od openAI jest mocno wytrenowana z polskiego community i ma duże zestawy z których może brać dane. Tutaj to jeszcze nie jest tak popularne i nawet nie miało kiedy się rozwinąć.
@HenrykBarbossa5 күн бұрын
Odzczuwam różnice nawet wtedy, kiedy korzystam z llm w przeglądarce lub aplikacji. W mowie trawie każdy LLM sprawuje się świetnie. Co do deepseek to mamy do czynienia z klasycznym chinskim produktem, o jakości wprost proporcjonalnej do kosztu. On trąca towarem zakupionym na Temu P.S co do monitów, warto treść promptów przeredagować wykorzystując inny LLM.
@MM_Legacy3 күн бұрын
na reddicie już zauważyli, że Deepseek zapytany o model, czasem przedstawia się jako Deepseek, czasem jako GPT, a czasem jako Claude, co budzi trochę pytań. No i zapytany o plac Tiananmen cenzuruje odpowiedź. Model uczony pod chińską narrację polityczną to dla mnie czerwona flaga.
@ryczkowsky6 күн бұрын
Testuje R1 poprzez api na vsc z Cline i rzeczywiście, różnica jest zauważalna do o1 lub Claude 3.5 sonnet, choć różnica w kosztach jest też mocno zauważalna. Też zadaje pytanie: Ile słów będzie liczyć twoja odpowiedź na to pytanie? Każdy się wyłożył. Pozdrawiam
@-mikoaj-30195 күн бұрын
ile słów będzie liczyła teraz twoja odpowiedź? Ta odpowiedź zawiera pięć słów. za pierwszym razem odpowiedział dobrze
@nikolakraljevic64845 күн бұрын
Niestety, nie jest to wszystko tak jednoznaczne, jak wynika z tych testów. Próbowałem dokładnie tego samego zadania z Tragaczem i Badaczem. Na tak uproszczone pytanie, jak to pokazano w wideo, ChatGPT O1 myślał długo, po drodze wymyślił jakieś nieistniejące założenia i ostatecznie udzielił niepoprawnej odpowiedzi. DeepSeek R1 myślał bardzo, bardzo długo - już myślałem, że się zapętlił - może z 5 minut. Wygenerował bardzo dużo „rozważań”, ale w końcu podał poprawną odpowiedź, chociaż w międzyczasie przeszedł na angielski. Ale co ciekawe, zwykły DeepSeek, bez „DeepThinking”, udzielił natychmiastowej i poprawnej odpowiedzi na to pytanie. Spróbujcie sami kilkukrotnie w nowych czatach i zobaczycie.
@nikolakraljevic64845 күн бұрын
@@zbyti Zgadzam się. Testowanie modeli przy użyciu jednego pytania nie oddaje rzeczywistej "inteligencji" modelu, ponieważ wynik może być czysto przypadkowy. Aby uzyskać bardziej wiarygodne wyniki, należałoby przeprowadzić eksperyment na znacznie większą skalę. Proponuję otworzyć 100, a najlepiej 1000 nowych sesji dla każdego modelu, zadając w każdej z nich dokładnie to samo pytanie. Następnie należałoby zebrać dane i przeanalizować statystyki - zarówno poprawność odpowiedzi, jak i konsystencję w generowanych wynikach. Powtórzenie tego procesu dla wszystkich porównywanych modeli pozwoliłoby uzyskać bardziej obiektywny obraz ich możliwości. Testowanie pojedynczym pytaniem jest zbyt podatne na losowość generowania odpowiedzi i nie oddaje w pełni potencjału ani ograniczeń modeli językowych.
@cybernetic-ransomware1485Күн бұрын
@@nikolakraljevic6484 statystyka zaczyna się od miliardowych populacji. Także równie dobrze chłopskorozumowe 1000 testów może okazać się zmarnowaniem czasu i zasobów. Mniejsze prawdopodobieństwo, niż przy 100, ale wciąż zgodne z Gaussem. Pytanie kto ma zasoby na takie badania? Nie znam, więc przy braku dostępu do lepszej metodyki nie krzyczę "o kant d... rozbić takie porównanie", a nawet uważam, że te subiektywne testy przy podanej metodyce są o wiele lepsze, niż podanie tabelki wartości wskaźników uzyskanych w kolejnym generycznym benchmarku bez zagłębiania się w metodykę.
@nikolakraljevic648421 сағат бұрын
@@cybernetic-ransomware1485 chłopskorozumowe jest akurat myśleć że "statystyka zaczyna się od miliardowych populacji". Tak się składa, że zajmuję się statystyką i często badamy znacznie mniejsze populacje. Gdyby zawsze były potrzebne wyłącznie miliardowe populacje, jak twierdzisz, nie dałoby się obliczyć na przykład średnich zarobków Polaków. Zadanie jednego pytania modelowi MML jest zdecydowanie niewystarczające, aby dostrzec jakąkolwiek zależność lub tendencję. Natomiast zadanie tego samego pytania 10 razy temu samemu modelowi pozwala lepiej zrozumieć, jak dobrze on działa.
@mariope57122 күн бұрын
Świetny materiał, kiedy zobaczyłem pierwsze informacje o R1 spodziewałem się, że moze wykazywać skłonności do overfitting'u. Próbowałeś przeprowadzać testy po angielsku, jesli tak to czy są różnice w wynikach miedzy testami po polsku? (zauważyłem że ChatGPT lepiej sobie radzi gdy promptujesz po angielsku)
@SmartTechSynergy2 күн бұрын
Tak, testy po angielsku są już zrobione (~te same zadania), będzie część 2 z tymi testami w tym tygodniu. Na konkluzje poczekajmy do filmu ;)
@57-Mar-Mar6 күн бұрын
Hej. Tak tylko mała uwaga. W teście jest chyba błąd: "ktoś bierze szklankę ze stołu i wkłada i piekarnika". Powinno chyba być "do piekarnika"
@SmartTechSynergy5 күн бұрын
Brawo za czujność! Pierwszy raz ktoś to zauważył :) Tak, literówka była zrobiona przed pierwszym użyciem testu, a później już musiała zostać, żeby każdy model miał równe szanse.
@57-Mar-Mar5 күн бұрын
@SmartTechSynergy achaaaa to ciekawe... Czyli modele AI gdy widzą takie zdanie to traktują to jako błąd, tak? Po prostu one były trenowane na innych danych i wyrażenia, spoza bazy danych na ktorych były trenowane, uznają jako błąd. Nawet jeśli użytkownik miał coś innego na myśli i celowo tak napisał, to model AI ze względu na to że nie spotkał się z takim wyrażeniem podczas trenowania to uzna cos takiego jako błąd, tak?
@SmartTechSynergy5 күн бұрын
Nie generalizowałbym tego. Błąd to szerokie pojęcie i może kompletnie zmienić sens. Ale w tym konkretnym przypadku, na wszystkie testowane dotąd modele nie spotkałem się żeby któryś źle zinterpretował zadanie z powodu tej literówki.
@DarekB25 күн бұрын
o1 robi te same bledy co R1 w programowaniu. Serio 10razy mu pokazuje gdzi jest blad, on mi mowi ze poprawi, nadal nie dziala, poprawia, nie kompiluje sie, ja mu mowie gdzie blad i tak w kolo macieju, daje mu znowu dobry kod moj dzialajacy, ma go podzielic na mniejsze metody wraz go zmienia pod wzgledem logicznym i nie dziala.. Takze ..
@wojciechxd48982 күн бұрын
copilot jeszcze gorszy
@BuggiEU3 күн бұрын
Bezcelowe jest testownie promptami w języku polskim modelu który nie deklaruje natywnej obsługi polskiego (czyli chyba jakiegokolwiek liczącego się modeluj). Poza tym nie ma mniejszych wersji tego modelu, są wersje Llamy i Qwena trenowane na wytworach R1.
@ventor111116 күн бұрын
Przy pierwszym zadaniu napisalbym prompta o cały zmodyfikowany kod. I wtedy myślę byłaby lepiej
@kloszi6 күн бұрын
Tutaj się zgodzę. Jest to wynik tego że jest też w wersji bezpłatnej zoptymalizowany do krótkich i zwięzłych informacji i jeszcze to w zależności od odciążenia serwera.
@KindkompPl5 күн бұрын
Nie na tym test polega. Chodzi o porównanie jabłek do jabłek. Żaden model w tym teście nie dostawał dodatkowych istrukcji, jest to z resztą wyjaśnione w 2:54
@robertmotekaКүн бұрын
testowałem R1 i po dzisiejszej burzy medialnej głównie dostawałem że serwery są overloaded
@llllxxxxllll2 күн бұрын
Autor nagrania użył chyba najmniejszej wersji modelu, u mnie poradził sobie dużo lepiej z wymienionymi zadaniami.
@juzwa19782 күн бұрын
Ale ten model kosztował podobno ok 5 mln dolarów i jest jeszcze w fazie testów , GTP kosztował 1000 x więcej i czy jest 1000x lepszy?? To jest własnie to , chiński produkt zawsze ma dobry stosunek jakości do ceny i nie oznacza to że jest najlepszy
@piker-pl2 күн бұрын
Nie, to zasada działania jakiegokolwiek rozwoju - każdy kolejny etap kosztuje nieporównywalnie więcej od poprzedniego. Tak już jest i trzeba sobie zawsze zadawać pytanie gdzie warto wysiadać z tego pociągu, a gdzie dalej sypać pieniądze. Chińczycy jak zawsze są mistrzami w dostarczaniu taniego, ale jako takiego produktu. Nie ma sensu ścigać się z OpenAI, natomiast tania alternatywa zawsze znajdzie miejsce na rynku.
@slyvek23 сағат бұрын
Spedzilem kilkanascie godzin z R1 i o1, i jesli chodzi o programowanie to o1 zdecydowanie wygrywa, ale juz 4o jest dosc porownywalny, moze 4o minimalnie lepszy niz r1. Typowe pytanie o pierdoly - tutaj r1 daje rade
@marcinkeczek41282 күн бұрын
"Program w HTMLu"... nie oglądam dalej.
@DariuszSadurski5 күн бұрын
Takie same błędy, a nawet bardziej durne robią konkurencyjne systemy.
@PaweAdamowicz19815 күн бұрын
Leci minus za polski język w promptach. Oceniasz nie SI, a jej znajomość rozumienia języka.
@PaweAdamowicz19815 күн бұрын
@zbyti To niech mówi od razu, że nie ocenia SI a jego zrozumienie dla danego języka. Deepseek to ostry przekozak, a w tych testach wygląda jak jakiś roczny dinozaur.
@BuggiEU3 күн бұрын
@@zbyti Przy pytaniu zadanym po polsku model "myśli" po angielsku więc jest to język natywny równorzędny z chińskim. Przy bardziej egzotycznych językach takich jak polski jest bariera wynikające z rozumienia poleceń i tłumaczenia odpowiedzi.
@mirek1905 күн бұрын
Czemu rozmawiasz z nim po polsku? Przeciez zadania w Polskim jezyku sa wykonywane o wiele gorzej ... dawno to udowodniono w testach. Test jest bardzo malo wiarygodny z tego powodu.
@007arekКүн бұрын
Przecież wiarygodność tutaj nie jest zachwiana, tylko trzeba dobrze interpretować test.
@kartrok30729 сағат бұрын
Przede wszystkim nie jest darmowy i otwarty, trzeba się logować i przekazywać dane.
@Bob-I_accepted2 күн бұрын
Wczoraj uruchomiłem i jestem pod wrażeniem 👍 To co w usach jest splugawione cenzurą i religijnością r1 wymienia wszystkich ponkolei bogów zapisanych w biblii. Co inne modele nie potrafią sukiennic ponad 5 sztuk. 😏😉😁
@maciejszarat94082 күн бұрын
Zapomniałeś dodać że to materiał sponsorowany co? Test który ma skompromitować konkretne narzędzie… przede wszystkim jest darmowe i dzięki temu zyska społeczność a po czasie stanie się lepszy przez to
@bazio5592Күн бұрын
Programowanie po Polsku, na litość boską chłop chyba odleciał ładnie 😂