Storage JuiceFS Appliances for AI Platforms

  Рет қаралды 148

OpenInfra Foundation

OpenInfra Foundation

Күн бұрын

네이버의 여러 서비스들은 “AiSuite” 라는 kubernetes, kubeflow 기반의 AI 플랫폼에서 개발 및 운영되고 있습니다. AiSuite 을 운영하면서 가장 어려웠던 것은 AI 워크로드에 적합한 스토리지를 제공하는 것이었습니다. LLM이 확산되면서 좋은 AI 모델을 생성하기 위해 필요한 데이터의 크기는 점점 더 커지고 있으며, 분산 학습을 위해서는 다수의 노드에서 동시에 접근할 수 있어야 합니다. 또한 Llama 2, MPT 등 빠르게 등장하는 다양한 LLM 오픈소스를 쉽게 적용해볼 수 있어야 합니다. 이러한 요구사항을 모두 만족하는 스토리지는 큰 비용이 듭니다. (AWS S3와 EFS는 표준 요금 기준 10배 차이) 또한, AiSuite는 네이버 사내에 구축되어 AWS, GCP와 같은 외부 클라우드 스토리지를 사용할 수 없는 환경입니다. 본 발표에서는, 적은 비용으로 AI 플랫폼의 요구사항을 만족하는 스토리지를 지원하기 위해 JuiceFS 를 도입했던 과정들을 설명합니다.
NAVER’s services are developed on an AI Platform based on Kubernetes and Kubeflow called “AiSuite”. The biggest challenge for "AiSuite" is how to support storage suitable for AI workload. As LLM spreads, the size of data required to create good AI models is increasing, and distributed learning requires simultaneous access from multiple nodes. additionally, service developers should be able to easily apply various LLM open sources that are rapidly emerging, such as Llama2 and MPT. Storage that meets all of these requirements is expensive. (AWS EFS is 10x expensive than S3 in standard rates) additionally, “AiSuite” is an in-house platform, so external cloud storage such as AWS and GCP cannot be used. In this presentation, we introduce JuiceFS to support storage suitable for AI workload at a low cost.
See the slides: drive.google.c...
Speaker(s):
남경완 (Nam Kyung-wan)
백인준 in-jun baeg
Connect with us:
OpenInfra Twitter: / openinfradev
OpenInfra LinkedIn: / openinfra-foundation
OpenInfra Facebook: / openinfradev
OpenInfra Website: openinfra.dev/

Пікірлер
Andrew Ng: Opportunities in AI - 2023
36:55
Stanford Online
Рет қаралды 1,9 МЛН
Think Fast, Talk Smart: Communication Techniques
58:20
Stanford Graduate School of Business
Рет қаралды 44 МЛН
OCCUPIED #shortssprintbrasil
0:37
Natan por Aí
Рет қаралды 131 МЛН
Ozoda - Alamlar (Official Video 2023)
6:22
Ozoda Official
Рет қаралды 10 МЛН
ССЫЛКА НА ИГРУ В КОММЕНТАХ #shorts
0:36
Паша Осадчий
Рет қаралды 8 МЛН
47% of OpenStack clouds run on Ubuntu - this is why
21:24
OpenInfra Foundation
Рет қаралды 381
How language model post-training is done today
53:51
Interconnects AI
Рет қаралды 6 М.
Transformers (how LLMs work) explained visually | DL5
27:14
3Blue1Brown
Рет қаралды 4,7 МЛН
Why StarlingX is the Leading Virtualized Edge Platform for Telcos
30:00
OpenInfra Foundation
Рет қаралды 211
Why the Future of AI & Computers Will Be Analog
17:36
Undecided with Matt Ferrell
Рет қаралды 560 М.
Attention in transformers, step-by-step | DL6
26:10
3Blue1Brown
Рет қаралды 2,1 МЛН
JuiceFS CSI in Multi-Thousand Node Kubernetes Clusters for LLM Pre-Training - Weiwei Zhu
26:06
CNCF [Cloud Native Computing Foundation]
Рет қаралды 173
Automating In-place Ubuntu Upgrade of OpenStack Infrastructure with Kayobe
18:15
OCCUPIED #shortssprintbrasil
0:37
Natan por Aí
Рет қаралды 131 МЛН