Ubuntu 하드웨어 모니터링: CPU, GPU, RAM, Disk 상태 확인 및 실시간 점검 가이드
AI 모델 훈련이나 빅데이터 처리 같은 고사양 작업을 수행할 때, 서버의 하드웨어 상태를 실시간으로 모니터링하는 것은 매우 중요하다. 특히 CPU, GPU, RAM, Disk 등 주요 리소스(Resource)의 상태를 실시간으로 점검하면 시스템 과부하나 리소스 부족으로 인한 작업 중단 등의 문제를 미리 방지할 수 있다.
1. CPU 모니터링
CPU 온도 확인 (lm-sensors)
CPU 온도는 작업 중 과열을 방지하고 안정적인 연산을 유지하기 위해 주기적으로 확인해야 하는 중요한 요인이다.
- 설치 방법
sudo apt install lm-sensors -y
sudo sensors-detect
- 사용 방법
sensors
명령어를 실행하면 CPU와 메인보드 온도, 팬 속도 등 다양한 센서 정보를 실시간으로 확인할 수 있다.
CPU 사용률 및 프로세스 상태 (htop, top)
시스템의 전체적인 CPU 사용률과 실행 중인 프로세스의 상세 정보를 확인하는 방법이다.
htop설치 방법
sudo apt install htop -y
htop사용 방법
htop
- 기본 내장 명령어
top사용 방법
top
명령어를 실행하면 프로세스별 CPU 사용률, 메모리 사용량, 프로세스 우선순위 등을 실시간으로 모니터링할 수 있다. 기본 top 명령어에 비해 htop은 텍스트 컬러바와 직관적인 UI를 제공하여 한눈에 리소스 사용량을 파악하기가 더 원활하다.
CPU 전력 모니터링 (powertop)
시스템의 전력 소비 상태를 분석하고, 전력 소모를 최적화하기 위한 모니터링 도구이다.
- 설치 방법
sudo apt install powertop -y
- 사용 방법
sudo powertop
실행 시 시스템의 전력 소비 현황을 분석하고 절전 최적화를 위한 다양한 정보를 제공한다.
2. GPU 모니터링 (nvidia-smi)
딥러닝 학습 시 가장 핵심이 되는 GPU 리소스 상태를 확인하는 방법이다.
- 사용 방법
nvidia-smi
이 명령어를 사용하면 GPU 사용률, 그래픽 메모리(VRAM) 사용량, 실행 중인 프로세스 목록, 그리고 GPU 드라이버 및 CUDA 버전 등의 상세 정보를 한눈에 확인할 수 있다.
3. 메모리(RAM) 모니터링 (free)
시스템의 물리 메모리(RAM)와 스왑(Swap) 메모리 용량 및 사용량을 확인하는 방법이다.
- 사용 방법
free -h
-h 옵션을 사용하면 사람이 읽기 쉬운 형태(human-readable, 예: GB, MB)로 메모리 사용 현황이 출력된다.
4. 디스크 및 저장장치 모니터링 (df)
시스템에 마운트된 디스크의 전체 용량과 남은 여유 공간을 확인하는 방법이다.
- 사용 방법
df -h
마찬가지로 -h 옵션을 함께 사용하면 디스크 용량 단위(GB, TB 등)가 자동으로 변환되어 직관적으로 파악할 수 있다.
5. 실시간 모니터링 및 추가 옵션 팁
실시간 모니터링 (watch 명령어)
GPU, 메모리(RAM), 디스크 상태를 실시간으로 연속해서 모니터링하려면 watch 명령어를 활용하는 것이 좋다.
watch 명령어에 -d와 -n 1 옵션을 붙여 실행하면, 지정한 초 단위 간격으로 명령어를 자동 갱신하고 변경된 수치 부분을 하이라이트하여 보여준다.
- 옵션 설명
-
-d: 변경된 출력 결과를 화면에 하이라이트 표시한다. -
-n 1: 출력 결과를 갱신할 주기(초 단위)를 설정한다. (여기서는 1초 간격으로 설정)
-
- 사용 예시
# 1초 간격으로 GPU 상태를 실시간 점검
watch -d -n 1 nvidia-smi
# 1초 간격으로 메모리 사용량 실시간 점검
watch -d -n 1 free -h
# 1초 간격으로 디스크 용량 실시간 점검
watch -d -n 1 df -h
메모리 및 디스크 출력 옵션 단위 조절
메모리(free)나 디스크(df) 사용량을 출력할 때 목적에 맞게 단위를 지정할 수 있는 옵션들이다.
- 옵션 설명
-
-h: 자동으로 적절한 단위(KB, MB, GB, TB 등)를 선택하여 사람이 직관적으로 읽기 편하게 출력한다. -
-m: 모든 출력 단위를 메가바이트(MB) 단위로 고정하여 표시한다. -
-g: 모든 출력 단위를 기가바이트(GB) 단위로 고정하여 표시한다.
-
- 사용 예시
free -h # 사람이 읽기 쉬운 단위로 출력
free -m # MB 단위로 고정하여 출력
free -g # GB 단위로 고정하여 출력