본문 바로가기 대메뉴 바로가기

테크니컬 스토리

아이티마야의 새로운 기술 뉴스를 만나보세요.
Ceph와 MLOps 융합을 통한 데이터 중심 AI 운영
등록일
2025.09.23
첨부파일
빠르고 안전한 AI 개발 환경
Ceph와 MLOps 융합을 통한 데이터 중심 AI 운영
  • 안녕하세요, 서버 전문 업체 아이티마야 입니다.
  • 오늘은 J 대학교에 GPU 서버와 스토리지 서버를 활용한 프로젝트 사례를 소개해 드리겠습니다.
  • AI 시장은 빠르게 변화하고, 데이터 처리와 분석 속도가 핵심이 되는 시대입니다. MLOps와 Ceph를 연동하면, 데이터를 안전하게 저장하면서도 빠르게 처리할 수 있습니다.

  • Ceph는 안정적인 데이터 보호를 제공하고, MLOps는 모델 개발과 배포를 자동화하여 속도를 향상시킵니다.

  • 이렇게 효율적인 시스템은 AI 개발과 실험을 더 원활하게 만들어, 기업들이 경쟁에서 앞서 나갈 수 있도록 돕습니다. 결국, 빠른 데이터 처리와 안정성은 AI 시장에서 성공의 열쇠입니다.

  • 이번 프로젝트에서는 강력한 성능의 GPU 서버와 안정적인 스토리지 서버를 통해 최적의 환경을 구축하였습니다.

  • 아래에서 버의 사양 및 구성도를 함께 살펴보겠습니다
  • GPU 서버: 421GE-TNRT (총 6세트)
  • · 폼 팩터: 4U Rack 서버
  • · 프로세서: 4세대 Intel Xeon8462Y+ × 2개
  • · 메모리: 1024GB (1TB) DDR5 RAM
  • · 스토리지:
    • - 240GB Enterprise SSD × 2개 (운영체제용)
    • - 1.92TB U.2 NVMe SSD × 1개 (고속 데이터 처리)
  • · GPU: NVIDIA RTX A6000 × 10개
  • · 전원: 2700W 2+2 중복 전원 공급 장치 (RPS)
  • 스토리지 서버: RS720-E11-RS12(총 3세트)
  • · 프로세서: Intel 4세대 Xeon Scalable 4410Y (12코어, 2GHz, 30MB) × 2개
  • · 메모리: 4Samsung 32GB DDR5 Registered ECC PC5-4800 × 4개
  • · 스토리지:
    • - Samsung Enterprise SSD PM893 480GB (2.5" SATA 6Gb/s, TLC) × 2개
    • - Western Digital UltraStar 22TB (3.5" SATA, 7200RPM, 512MB 캐시) × 10개
  • · RAID 컨트롤러: LSI 9361-8i (8포트, 1GB 캐시, 지원 RAID 0/1/5/6/10/50/60)
  • · 네트워크:
    • - Intel Ethernet Converged Network Adapter X520-SR2
    • - 82599-2S 10Gigabit Ethernet 카드
    • - SFP+ Transceiver (10GBASE-T)
  • 네트워크 스위치
  • · 모델명: MikroTik L2 Switch CRS326-24S+2Q+RM (24× 10G SFP+, 2× 40G QSFP, RouterOS 지원)

다음은 mlops 와 ceph에 대한 설명 입니다.

  • ceph

특징

  • · 자동 복제 및 장애 복구
  • · 블록, 파일, 오브젝트 스토리지 지원 (RBD, CephFS, S3/Swift)
  • · 클러스터 확장 가능

구성요소

  • · OSD: 데이터 저장 및 복제
  • · MON: 클러스터 상태 관리
  • · MDS: 파일 시스템 메타데이터 관리
  • · RGW: S3/Swift API 지원

사용 사례

  • · 클라우드 스토리지 (OpenStack, Kubernetes)
  • · 대규모 데이터 저장소 (빅데이터, 미디어, 백업)
  • mlops

특징

  • · 데이터 관리: 수집, 정제, 버전 관리
  • · 모델 개발 & 실험: 훈련, 하이퍼 파라미터 튜닝
  • · CI/CD & 배포: 자동 테스트, 컨테이너 활용
  • · 모델 모니터링: 성능 추적, 자동 업데이트

구성 요소

  • · MLflow, DVC (실험 & 데이터 관리)
  • · Kubeflow, Airflow (자동화 & 배포)
  • · TensorFlow Serving, Seldon (모델 서빙)
  • 구성도
  • 구성 사진
PLEASE WAIT WHILE LOADING...