хм, у ваших ipynb файлах виглядає так що ви запускали не використовуючи cuda to(device), hugging face трансформери по дефолту раняться на cpu (ніби) тому це якесь трохи дивне порівняння часу
@qdzzzxc8620Күн бұрын
так на сервере без gpu инференс
@tempdeltavalueКүн бұрын
@@qdzzzxc8620 Ну так .. то все локально ніби раниться , просто порівнювати час інференсу моделі на cpu , як мінімум, дивно (імхо)
@qdzzzxc8620Күн бұрын
@@tempdeltavalue так смысл сравнивать cuda и cpu, если у тебя на сервере физически нет gpu и интересует скорость на cpu инференсе. та же llama.cpp и подобные не поддерживают куду, но из-за распберри паев и подобного имеют право на жизнь