И вам здоровья. И спасибо за видео. У меня вопрос возник как у бэкенд жава программера (с питоном знаком поверхностно): вы же это на лептопе гоняли как я понял, с небольшими файлами данных это воркабл, а что если файлы большие? Я не уверен, но кажется все эти вычисления которые вы делали они одним тредом исполняются питоновскими либами, то есть даже процессор лептопа утилизирован не полностью. И умеют ли эти библиотеки работать с данными которые не помещаются в оперативку? Вобщем интересно насколько питон применим к анализу биг дата.
@OverEngineer4 жыл бұрын
отличный вопрос. есть либа dask, которая как раз разработана для работы с данными, не помещающимися в память. у нее интерфейс очень похож на pandas.
@yuriybell4 жыл бұрын
@@OverEngineer Слышал про даск. говорят что интерфейс - жалкое подобие пандас. Единственное, что приходит на ум это загружать биг дата во что то типа bigquery и частично анализировать там (дорого и неудобно) и экспортировать маленькие сэмплы и дальше в пандас обрабатывать. вопрос как вычислить такой маленький сэмпл чтоб статистики/графики были достаточно точны. видимо надо мат. статистику повторять. Интересно, что принято у датасаентистов делать для анализа биг дата..
@tohoto21834 жыл бұрын
@@yuriybell Создавать модели и не парится с мусором .