안녕하세요. 히팟 담당자입니다. 5월 17일 안드로이드 버전 히팟 앱이 특정 기기 오류(재생오류, 종료 시간 설정 탭, 다운로드 오류 등) 등을 수정하여 업데이트 되었습니다. 스토어 방문하셔서 업데이트 부탁드립니다! 이용에 불편을 드려 죄송하며, 다른 오류(잠금화면 / 노티 미디어 콘트롤러 부분)도 수정이 끝나면 추가 업데이트를 진행하겠습니다. IOS 관련 오류 부분은 승인이 나면 바로 배포 진행 및 공지 올리겠습니다. 감사합니다!
안녕하세요. 히팟 담당자입니다. 5월 11일 기준 IOS(2.0), 안드로이드(1.3.0v) 버전으로 앱이 업데이트되었습니다. 이용에 참고 부탁드리며, 업데이트 이후 크고 작은 오류 사항들이 발생하고 있습니다. 이용에 불편을 드려 죄송합니다. 취합된 오류 사항을 빠르게 확인, 수정중입니다. 향후 이용에는 불편함이 없도록 하겠습니다. 히팟을 이용해 주셔서 다시 한번 감사 말씀 드리며, 계속해서 발전하는 히팟이 되도록 하겠습니다. 감사합니다.
해당 시간 동안 모든 결제 / 환불 / 본인인증 처리가 이뤄지지 않음 아임포트 결제서비스, 본인인증 서비스 및 REST API / 아임포트 어드민 모든 서비스에서 Outbound 트래픽이 차단됨 결제창/본인인증 서비스 호출 시, PG사와 사전 통신을 필수로 요하는 케이스는 결제창/인증창이 뜨지 않는 문제 발생 결제창/본인인증 서비스 호출 시, PG사와 통신을 필수로 요하지 않는 케이스는 결제창/인증창이 뜨지만 최종 승인/본인인증 단계에서 처리되지않고 Timeout 발생 REST API 를 통한 결제건 환불처리 시, Timeout 발생하며 처리되지 않음 아임포트 어드민을 통한 결제건 환불처리 시, Timeout 발생하며 처리되지 않음
2.원인
아임포트 서비스는 AWS Seoul 리전에서 모든 서비스 운영되고 있음 (availability zones - a zone / c zone 이중화 처리 중)) AWS VPC 내 NAT 게이트웨이를 거쳐 모든 AWS 리소스가 Outbound 에 대한 트래픽 처리 중 PCI-DSS / ISMS-P 인증 진행 과정 중이며, 심사기관으로부터 일부 네트워크 구성 변경에 대한 요청을 받음 17시부터 관련 구성변경을 위한 내부 인프라 변경작업 진행 과정에서 NAT게이트웨이를 통한 서브넷 구성 변경을 시작 담당자 실수로 Outbound 처리가 필요한 WAS 리소스들이 포함된 서브넷들이 NAT게이트웨이에서 제거되는 상황 발생
3.내부 대응 (시간 경과순)
-17시 28분 : 내부 트래픽 모니터링 및 Alert 시스템을 통한 인프라 장애 감지후 담당자 원인 분석 + 내부 인원간 변경이력 조사 시작
1차 원인 분석(잘못된 분석) : 해당 시점기준 특이사항 내부 파악 시, 개발팀에서 DB 테이블 컬럼 암호화 처리를 위해 대량 배치프로그램 실행한 이력 확인
-17시 55분 : 배치프로그램 중단 및 모든 WAS 순차 재기동 시작
-18시 05분 : 모니터링 로그상 여전히 이슈해결되지 않은 것을 확인하고 다른 원인 분석 시작
-18시 20분 : 아임포트로 들어오는 Inbound 트래픽은 모두 정상이며, Outbound 트래픽 처리 단계에서 Timeout 발생하는 현상 확인 및 모든 AWS 리소스에서 Outbound 트래픽이 나가지 않는 현상 확인 (올바른 분석)
-18시 25분 : VPC설정 상태 점검 시작 및 재택인원 포함 VPC 관련 변경이력 추적
-18시 35분 : NAT게이트웨이 관련 서브넷변경이력 확인
-18시 50분 : 모든 서브넷 설정 복구 완료 및 결제동작 정상화 확인
-19시 18분 : 모든 WAS 및 서버 재기동 완료 (다량의 Timeout 으로 인해 좀비프로세스가 된 시스템 완전 복구 목적)
4.회고
이번 장애는 작업자에 의한 인재로서 내부 인원들간 작업 내용 사전 공유 및 컨펌 후, 작업개시 프로세스 확립 필요 AWS CloudTrail 및 AWS Config 적극 활용을 통해 보다 빠른 변경이력 및 변경 전/후 비교 자동화 필요 향후 모든 인프라 변경작업은 항상 2인 1조로 페어로 수행하며, 작업내용에 대해 빠른 내부 공유 프로세스 확립
이용에 불편을 드려죄송합니다. PG사에 강력히 항의 하였습니다. 재발방지를 위해 최선을 다하겠습니다.