Ubuntu 하드웨어 모니터링: CPU, GPU, RAM, Disk 상태 확인 및 실시간 점검 가이드

AI 모델 훈련이나 빅데이터 처리 같은 고사양 작업을 수행할 때, 서버의 하드웨어 상태를 실시간으로 모니터링하는 것은 매우 중요하다. 특히 CPU, GPU, RAM, Disk 등 주요 리소스(Resource)의 상태를 실시간으로 점검하면 시스템 과부하나 리소스 부족으로 인한 작업 중단 등의 문제를 미리 방지할 수 있다.


1. CPU 모니터링

CPU 온도 확인 (lm-sensors)

CPU 온도는 작업 중 과열을 방지하고 안정적인 연산을 유지하기 위해 주기적으로 확인해야 하는 중요한 요인이다.

  • 설치 방법
sudo apt install lm-sensors -y
sudo sensors-detect
  • 사용 방법
sensors

명령어를 실행하면 CPU와 메인보드 온도, 팬 속도 등 다양한 센서 정보를 실시간으로 확인할 수 있다.


CPU 사용률 및 프로세스 상태 (htop, top)

시스템의 전체적인 CPU 사용률과 실행 중인 프로세스의 상세 정보를 확인하는 방법이다.

  • htop 설치 방법
sudo apt install htop -y
  • htop 사용 방법
htop
  • 기본 내장 명령어 top 사용 방법
top

명령어를 실행하면 프로세스별 CPU 사용률, 메모리 사용량, 프로세스 우선순위 등을 실시간으로 모니터링할 수 있다. 기본 top 명령어에 비해 htop은 텍스트 컬러바와 직관적인 UI를 제공하여 한눈에 리소스 사용량을 파악하기가 더 원활하다.


CPU 전력 모니터링 (powertop)

시스템의 전력 소비 상태를 분석하고, 전력 소모를 최적화하기 위한 모니터링 도구이다.

  • 설치 방법
sudo apt install powertop -y
  • 사용 방법
sudo powertop

실행 시 시스템의 전력 소비 현황을 분석하고 절전 최적화를 위한 다양한 정보를 제공한다.


2. GPU 모니터링 (nvidia-smi)

딥러닝 학습 시 가장 핵심이 되는 GPU 리소스 상태를 확인하는 방법이다.

  • 사용 방법
nvidia-smi

이 명령어를 사용하면 GPU 사용률, 그래픽 메모리(VRAM) 사용량, 실행 중인 프로세스 목록, 그리고 GPU 드라이버 및 CUDA 버전 등의 상세 정보를 한눈에 확인할 수 있다.


3. 메모리(RAM) 모니터링 (free)

시스템의 물리 메모리(RAM)와 스왑(Swap) 메모리 용량 및 사용량을 확인하는 방법이다.

  • 사용 방법
free -h

-h 옵션을 사용하면 사람이 읽기 쉬운 형태(human-readable, 예: GB, MB)로 메모리 사용 현황이 출력된다.


4. 디스크 및 저장장치 모니터링 (df)

시스템에 마운트된 디스크의 전체 용량과 남은 여유 공간을 확인하는 방법이다.

  • 사용 방법
df -h

마찬가지로 -h 옵션을 함께 사용하면 디스크 용량 단위(GB, TB 등)가 자동으로 변환되어 직관적으로 파악할 수 있다.


5. 실시간 모니터링 및 추가 옵션 팁

실시간 모니터링 (watch 명령어)

GPU, 메모리(RAM), 디스크 상태를 실시간으로 연속해서 모니터링하려면 watch 명령어를 활용하는 것이 좋다.

watch 명령어에 -d-n 1 옵션을 붙여 실행하면, 지정한 초 단위 간격으로 명령어를 자동 갱신하고 변경된 수치 부분을 하이라이트하여 보여준다.

  • 옵션 설명
    • -d: 변경된 출력 결과를 화면에 하이라이트 표시한다.
    • -n 1: 출력 결과를 갱신할 주기(초 단위)를 설정한다. (여기서는 1초 간격으로 설정)
  • 사용 예시
# 1초 간격으로 GPU 상태를 실시간 점검
watch -d -n 1 nvidia-smi

# 1초 간격으로 메모리 사용량 실시간 점검
watch -d -n 1 free -h

# 1초 간격으로 디스크 용량 실시간 점검
watch -d -n 1 df -h

메모리 및 디스크 출력 옵션 단위 조절

메모리(free)나 디스크(df) 사용량을 출력할 때 목적에 맞게 단위를 지정할 수 있는 옵션들이다.

  • 옵션 설명
    • -h: 자동으로 적절한 단위(KB, MB, GB, TB 등)를 선택하여 사람이 직관적으로 읽기 편하게 출력한다.
    • -m: 모든 출력 단위를 메가바이트(MB) 단위로 고정하여 표시한다.
    • -g: 모든 출력 단위를 기가바이트(GB) 단위로 고정하여 표시한다.
  • 사용 예시
free -h  # 사람이 읽기 쉬운 단위로 출력
free -m  # MB 단위로 고정하여 출력
free -g  # GB 단위로 고정하여 출력

참고 자료