**CISCO ACI (Application Centric Infrastructure)**는 데이터센터 네트워크를 SDN 방식으로 자동화, 가상화하는 강력한 솔루션입니다.
하지만 안정적인 운영을 위해서는 **정기점검 절차(Scheduled Maintenance)**가 필요하며, 네트워크 장애, 성능 저하를 사전에 예방할 수 있습니다.
아래는 CISCO ACI 환경에서의 정기점검 절차를 상세하게 정리한 내용입니다.
(※ 실제 현장에 맞춰 조정 가능)

✅ 1. 정기점검의 목적
목적 설명
| 시스템 안정성 확보 | APIC, Spine, Leaf 장비의 상태 점검 |
| 성능 이슈 조기 발견 | 트래픽, CPU, 메모리 사용량 확인 |
| 장애 예방 | 소프트웨어, 하드웨어 상태, 물리적 연결 확인 |
| 보안 취약점 점검 | 접근 권한, 미사용 계정, 인증체계 등 검토 |
| 장애 대응력 향상 | 로그, 이벤트 분석 통해 장애 징후 사전 인지 |
✅ 2. 점검 준비사항
준비 항목 상세 내용
| 점검 계획 수립 | 점검 일시, 점검 범위, 담당자 지정 |
| 백업 (Snapshot) | ACI 구성 백업 (APIC에서 정책, 설정 스냅샷 저장) |
| 점검 체크리스트 준비 | 필수 점검 항목 목록 (아래 제공) |
| 비상 연락망 | 장애 시 즉시 연락 가능한 인원 리스트 |
| 점검 로그/보고서 양식 준비 | 점검 결과 기록할 표준 문서 |
✅ 3. 정기점검 절차 (상세)
🟡 1) ACI 패브릭 상태 점검
점검 항목 명령어 / 방법 설명
| APIC 상태 확인 | acidiag fnvread / GUI 대시보드 | APIC의 Fabric Node 등록/상태 확인 |
| Fabric Inventory 점검 | GUI: Fabric > Inventory | 모든 Leaf/Spine/Controller 장비 상태, 연결 확인 |
| Fabric Membership | show fabric membership | Leaf/Spine 장비의 패브릭 멤버십 상태 |
| 노드 연결상태 | GUI 또는 show interface | 포트 연결, 장애 포트 여부 (다운, 에러, flap 등) |
🟡 2) 하드웨어 상태 점검
점검 항목 명령어 / 방법 설명
| 장비 온도/팬/전원 상태 | show system resources (Leaf/Spine) | 온도, 전원 공급, 팬, PSU 상태 |
| 인터페이스 상태 | show interface status | 인터페이스 up/down 상태, 속도, duplex 등 확인 |
| CPU/메모리 사용량 | show processes / show system resources | 과부하 탐지 (비정상적인 자원 소모) |
| 디스크/스토리지 상태 | df -h (APIC Shell) | APIC의 저장 공간 여유 확인 |
🟡 3) 소프트웨어 / 펌웨어 상태 확인
점검 항목 명령어 / 방법 설명
| 펌웨어 버전 | show version | APIC, Leaf, Spine 장비 펌웨어 확인 |
| 소프트웨어 버전 및 일관성 확인 | GUI: Fabric > Inventory > Firmware | 모든 노드의 소프트웨어 버전 동일 여부 확인 |
| Critical Bug/Advisory 확인 | Cisco 공식 사이트 (Bug Search Tool) | 현재 버전의 알려진 이슈 확인 |
🟡 4) 네트워크 정책/테넌트 상태 점검
점검 항목 방법 설명
| 정책 일관성 확인 | GUI: Tenants > Application Profiles | 정책 적용 상태, EPG 설정 확인 |
| Bridge Domain, VRF 확인 | GUI: Tenants > Networking > VRFs / BDs | 네트워크 도메인, 라우팅, Subnet 설정 확인 |
| EPG 연결 확인 | GUI: Tenants > Application EPGs | EPG의 Endpoint 연결 상태, Health 확인 |
| Contract 상태 확인 | GUI: Tenants > Contracts | 정책 통신 허용/차단 상태 검토 |
🟡 5) 시스템 이벤트 & 알람 확인
점검 항목 방법 설명
| Fault / Alarm | GUI: Operations > Faults | 현재 발생한 Fault, Critical Alarm 확인 |
| Event Logs | GUI: Operations > Events | 최근 이벤트, 비정상 동작 로그 분석 |
| Audit Logs (보안점검) | GUI: Admin > AAA > Audit Logs | 관리자의 설정 변경, 접근 내역 확인 |
🟡 6) 보안 설정 점검 (선택/추천)
점검 항목 방법 설명
| Admin 계정 관리 | GUI: Admin > AAA | 미사용 계정 삭제, 비밀번호 정책 확인 |
| API 접근 제한 | GUI 또는 API 설정 | 외부 API 접근 권한 제한 |
| HTTPS/SSH 설정 확인 | GUI: Admin > System Settings | 보안 연결 설정 (HTTP 접근 차단, HTTPS 강제 등) |
✅ 4. 점검 후 보고서 (예시)
구분 상태 상세 내용 조치 필요 여부
| APIC 상태 확인 | 정상 | 모든 APIC 정상 작동 | 아니오 |
| Leaf/Spine 연결 | 이상 없음 | 모든 노드 연결 정상 | 아니오 |
| 인터페이스 상태 | 비정상 | Leaf 201, Eth1/3 down 상태 | 예 |
| 소프트웨어 일관성 | 정상 | 모든 노드 동일 버전 (4.2(7f)) | 아니오 |
| CPU/메모리 사용량 | 정상 | 전체 평균 20% 미만 사용 | 아니오 |
| 이벤트/알람 | 경고 | Spine-102, Fan 에러 경고 발생 | 예 |
✅ 5. 정기점검 주기 (권장)
항목 권장 주기
| 전체 시스템 점검 | 월 1회 (최소 분기 1회) |
| 이벤트/알람/보안 | 주 1회 이상 |
| 펌웨어/버그 확인 | 분기 1회 (필요 시 수시) |
| 백업 | 월 1회 이상, 변경 시 즉시 |
✅ 6. 추가 추천: 자동화 도구
도구 역할
| Cisco Network Insights | 상태 모니터링, 이상탐지 자동화 |
| Cisco Nexus Dashboard | Fabric 운영/관리 통합 도구 |
| Ansible, Python API | 반복 점검 자동화 (스크립트 작성) |