Worker Node
Storage Node
Single Node (Tower)
4GPU Server
8GPU Server
10GPU Server
나라장터 등록제품
2GPU Workstation
4GPU Workstation
Name Node
Data Node
가상화
HCI
Network Storage
Data Server
NVMe over Fabrics
SAN Storage
나라장터 등록제품
WEB Server
WAS Server
고성능 DB
타워형서버
나라장터 등록제품
1CPU Workstation
2CPU Workstation
나라장터 등록제품
Cloud
Open Source
NVIDIA
HCI
Backup
MLOps
최근 MLOps 구성 관련하여 고객 요청이 많아지고 있습니다.
GPU 서버 단순 사용 환경은 장점도 많지만, 분명한 한계가 있습니다.
MLOps는 리소스 관리, 사용자 관리, 잡 관리, 하드웨어 관리 등을 효율적으로 해결할 수 있어 최근 고객 니즈에 가장 알맞은 인프라입니다.
B사에서는 “GPU 서버를 연구원 1명에게 1:1 할당” 하여 사용하던 기존 방식에서 MLOps를 도입하였고, 도입까지의 고려할 만한 이슈에 대해 사례로 안내드립니다.
B사는 서울에 위치한 IDC에 총 61대의 8GPU 서버를 사용 중이고, 사내 전산실에 4대의 8GPU 서버를 사용 중입니다. GPU 종류는 총 3가지로 GeForce RTX3090, Quadro RTX A5000, Tesla A40을 각각 사용하고 있었습니다. 사내 전산실에 위치한 서버는 사내 프로젝트에서 사용되었고, 데이터 센터에 위치한 서버는 연구원에게 할당되었습니다. 개발자의 자유가 큰 방식이지만, 개발 환경에 대한 통일이 되지 않았고, 전체 서버의 관리가 매우 어려운 방식입니다. 해당 방법은 서버 수가 작은 규모라면 충분한 가성비와 효율이 있는 방식이지만, 서버 수가 많아질수록 장점보다는 단점이 부각되는 방식입니다.
이러한 이유로 MLOps 도입을 검토하셨고 가장 먼저, MLOps 도입에 필요한 옵션들을 정리해 보았습니다.
고속 네트워크를 OPA로 선택하였고, 100Gbps로 구성합니다.
본 구성에서는 데이터 센터에 있는 61개의 워커 노드를 1개의 클러스터로 구성하고, 사내 전산실에 있는 4개의 워커 노드를 1개의 클러스터로 구성하였습니다. 데이터 센터와 사내 전산실의 고속 네트워크 연결은 가능하지 않습니다. 워커 노드에 디스크를 추가하여 클러스터 스토리지를 추가로 하여 스토리지 안정성과 성능을 확보할 수 있습니다. MLOps는 상용 솔루션으로 Uyuni MLOps Cluster로 구성했습니다.
OPA는 일반 네트워크 스위치처럼 스태킹이 가능하지 않습니다. 96포트 사용을 위해서 48포트 스위치 2개가 아닌 총 6개의 스위치가 필요합니다.
구성안 B는 구성안 A에서 OPA를 코어/엣지로 나누지 않고, 클러스터를 GPU 별로 쪼개 OPA 스위치를 분리했습니다. 구성안 A보다 스위치 비용이 저렴해지지만, 클러스터를 나누게 되어 접속 사용자를 이중으로 관리해야 하는 단점이 있습니다.
장점으로는 가격이 매우 저렴해지고 OPA Core 스위치 장애에 모든 시스템이 먹통 되는 이슈를 피할 수 있습니다.
B사는 최종적으로 구성안 B를 선택하셨고, 3개의 클러스터를 용도별로 나누어 사용 중입니다.