본문 바로가기 대메뉴 바로가기

테크니컬 스토리

아이티마야의 새로운 기술 뉴스를 만나보세요.
S사 GPU 통합 모니터링
등록일
2022.07.26
첨부파일
A사 MLOps 환경 구축
가성비 좋은 통합 MLOps 환경을 구성한다면?
GPU 통합 모니터링
  • 시스템 모니터링 환경을 이미 갖추고 있는 고객사도 GPU 시스템 같은 특수환경의 모니터링이 필요하지만 솔루션을 찾지 못해 GPU 사용량 모니터링을 포기하는 경우가 많습니다.

    Grafana를 Prometheus와 함께 사용하여 GPU를 포함한 통합 모니터링 환경을 구성할 수 있습니다.

    오픈소스로 제공되지만 무려, 설치 및 관리까지 편합니다. 그리고 어떤 환경에서도 적용이 가능합니다.

  • 고객사 환경
  • 제조사가 서로 다른 CPU 서버 및
    GPU 서버를 50대 이상 사용

  • CPU 작업을 위한 서버 와 GPU
    작업을 위한 서버 를 분리하여 사용중

  • 잦은 GPU 장애에 대한 장애 포인트
    체크를 위한 시간이 오래 걸림

  • 고객사 고려 사항
  • 서버 시스템의 모니터링 또는
    네트워크 모니터링 환경이
    독립된 모니터링이 아닌 GPU를 포함한 통합 모니터링이 필요함

  • 장애에 대한 로그 및 기록이 필요함

  • 하드웨어 구성
  • Grafana 서버 구성 (1CPU 전용 작은 규모의 서버)

    사양 : 1U / Xeon E2224 x1CPU / 16GB Memory / 960GB x2 RAID1 / 전원이중화

  • Grafana, Prometheus 구성

    모니터링 대상 서버에 Agent 및 NVIDIA DCGM Exporter 구성

    · 로컬 또는 컨테이너 구성 선택 가능

    · 엔지니어 2일 작업으로 전체 구성 가능

    · 고객사에 맞춰 대시보드 커스텀

    사용 환경

    Grafana의 가장 큰 장점은 서버의 정보를 토대로 대시보드 출력정보를 사용자가 마음대로 커스텀 할 수 있다는 것입니다.

    같은 값이라도 크기, 위치, 그래프 종류, 숫자, 퍼센트 등 어떤 GUI로도 변경할 수 있습니다. 해당 사이트에서는 아래 정보값을 주 정보값으로 표기했습니다.

    · 수집된 로그의 표시 기간 (ex. 1시간이내내 로그, 1일로그, 30일로그, 90일로그 등)

    · 개별 서버 지정 가능 (전체 서버 또는 개별 서버 지정 가능)

    · 전체 서버 모니터링 (사용량 80% 이상 붉은색 표시)

    · GPU Temp (Avg) : GPU당 평균 온도

    · GPU Power Usage (Per GPU Avg) : GPU당 평균 전력 사용량

    영업 담당자 comment

    단일 서버 또는 단일 VM 하나만으로도 훌륭한 통합 모니터링 환경을 구성할 수 있습니다.

    대시보드를 고객에 맞춰 커스텀 할수 있고, DCGM Exporter와 Prometheus는 매우 정확한 정보를 제공합니다.

    엔지니어 지원 비용 외에 별다른 비용이 발생하지 않고, 기존 서비스에 영향을 주지 않고 구성할 수 있는 모니터링 환경입니다. 여러 대시보드를 띄워 상시 모니터링 환경을 구성하는 것도 가능합니다.

    PLEASE WAIT WHILE LOADING...