본문 바로가기 대메뉴 바로가기

테크니컬 스토리

아이티마야의 새로운 기술 뉴스를 만나보세요.
100 Gbps OPA(Omni-Path Express Accelerated) 장치 설정 (Ubuntu)
등록일
2023.05.17
첨부파일
가성비로 구성하는 서버 간 100 Gbps 구성
100 Gbps OPA(Omni-Path Express Accelerated) 장치 설정 (Ubuntu)
  • 서버 간 고속 통신

OPA(Omni-Path Express Accelerated)는 몇 년 전까지 인텔에서 HPC를 대상으로 세일즈 하던 Mellanox EDR과 비교되던 서버 간 고속 통신망입니다. 지금은 OPA가 CORNELIS로 인수되어 지속되고 있습니다.
최근 Nvidia에 인수된 Mellanox의 인피니밴드 제품이 2023년 1분기 기준 제품수급에 문제가 있어 발주 후 오랜 시간을 대기해야만 하고, 가격도 많이 비싸 가성비로 OPA로 선택하시는 경우가 많습니다. OPA는 100 Gbps 구성까지 제공하며 기본구성으로 48 포트 스위치와 서버에 장착되는 인터페이스카드만 있으면 사용 가능합니다.

  • OS 지원

OPA의 OS 제공은 Redhat 계열을 위주로 업데이트되고 있습니다.
하지만 최근 AI사용자의 Ubuntu 사용이 많아지며 Ubuntu에서 사용하는 방법에 대해 정리하였습니다.

  • 테스트된 OS
  • Ubuntu 20.04
  • Ubuntu 22.04
  • Ubuntu repo에서는 OPA관련 패키지를 제공하여 매우 간단하게 구성할 수 있습니다. 테스트는 스위치 1개에 6대의 서버를 OPA HCA를 통해 연결하고 테스트했습니다.
  • 장치 구성
  • $ sudo apt install opa-fastfabric rdma-core
  • OPA 정보 로드
  • $ sudo opainfo
  • $ sudo opareport
  • $ lspci | grep Omni
  • $ lshw -C network

issue#1. OPA 장치명 할당 이슈

  • 장치 드라이버 설치 후, 장치는 정상 인식되지만 장치명이 할당되지 않는다면, modprobe.d 에서 nouveau를 차단했는지 확인해야 합니다. 만약 차단했다면 차단을 하지 않아야 정상 할당 됩니다.
  • # cd / etc/modprobe.d
  • nouveau 차단 내용 모두 삭제

issue#2. ipoib 등 모듈 자동 로드 이슈

  • 인피니밴드 장치에 ip를 할당하기 위해 ipoib를 포함한 몇몇 모듈이 실행되어야 하는데, 모듈이 자동으로 로드되지 않습니다. rdma-core 패키지를 설치하면 opa-fastfabric과 함께 설치된 모듈도 자동으로 로드되도록 등록해야 합니다.

issue#3. OPA 장치 활성화 이슈

  • 초기 구성시 opainfo 명령어로 확인했을 때 PortState 값이 Init으로 출력됩니다. 이는 정상 인식이 되지 않은 경우이며, subnet manager 가 구성되지 않으면 이런 증상이 나타납니다. 모든 서버 중 반드시 서버 1대에는 opa-fm을 설치해야 합니다. opa-fm 패키지를 설치하면 PortState 값이 Active로 변경되고, OS에서 제공하는 netplan이나 network-manager 등에서 IP할당이 정상적으로 가능합니다. 서브넷 매니저는 1개 네트워크에 1개 서버에만 설치되면 된다. 중복 설치되면 문제가 됩니다. opa-fm 이 설치된 서버가 다운된다면, opa 링크 연결에도 영향을 줄 수 있습니다.
  • $ sudo apt install opa-fm
  • OPA 장, 단점

OPA구성은 이더넷과 같은 네트워크 통신이 아닙니다. IP 등을 할당하여 사용하는 환경은 동일하게 제공하지만, 이를 이더넷 통신으로 사용할 수 없습니다. 서버 간 고속 통신만 제공합니다. HPC에서는 상당한 시장 점유율이 있는 제품인 만큼, 구성에 대한 래퍼런스를 많이 찾아볼 수 있습니다. 가격이 상대적으로 저렴한 게 가장 큰 장점입니다. 아쉬운 점은 HPC 외의 환경에서 많은 래퍼런스가 없다는 점과 100 Gbps 이후 후속모델이 아직 출시되지 않고 있다는 게 많이 아쉬운 점입니다. 하지만 OPA는 서버 간 고속통신을 고려한다면 꼭 비교대상에 올려놓아야 하는 제품입니다.

PLEASE WAIT WHILE LOADING...