Рет қаралды 148
네이버의 여러 서비스들은 “AiSuite” 라는 kubernetes, kubeflow 기반의 AI 플랫폼에서 개발 및 운영되고 있습니다. AiSuite 을 운영하면서 가장 어려웠던 것은 AI 워크로드에 적합한 스토리지를 제공하는 것이었습니다. LLM이 확산되면서 좋은 AI 모델을 생성하기 위해 필요한 데이터의 크기는 점점 더 커지고 있으며, 분산 학습을 위해서는 다수의 노드에서 동시에 접근할 수 있어야 합니다. 또한 Llama 2, MPT 등 빠르게 등장하는 다양한 LLM 오픈소스를 쉽게 적용해볼 수 있어야 합니다. 이러한 요구사항을 모두 만족하는 스토리지는 큰 비용이 듭니다. (AWS S3와 EFS는 표준 요금 기준 10배 차이) 또한, AiSuite는 네이버 사내에 구축되어 AWS, GCP와 같은 외부 클라우드 스토리지를 사용할 수 없는 환경입니다. 본 발표에서는, 적은 비용으로 AI 플랫폼의 요구사항을 만족하는 스토리지를 지원하기 위해 JuiceFS 를 도입했던 과정들을 설명합니다.
NAVER’s services are developed on an AI Platform based on Kubernetes and Kubeflow called “AiSuite”. The biggest challenge for "AiSuite" is how to support storage suitable for AI workload. As LLM spreads, the size of data required to create good AI models is increasing, and distributed learning requires simultaneous access from multiple nodes. additionally, service developers should be able to easily apply various LLM open sources that are rapidly emerging, such as Llama2 and MPT. Storage that meets all of these requirements is expensive. (AWS EFS is 10x expensive than S3 in standard rates) additionally, “AiSuite” is an in-house platform, so external cloud storage such as AWS and GCP cannot be used. In this presentation, we introduce JuiceFS to support storage suitable for AI workload at a low cost.
See the slides: drive.google.c...
Speaker(s):
남경완 (Nam Kyung-wan)
백인준 in-jun baeg
Connect with us:
OpenInfra Twitter: / openinfradev
OpenInfra LinkedIn: / openinfra-foundation
OpenInfra Facebook: / openinfradev
OpenInfra Website: openinfra.dev/