본문 바로가기

나의 고백/유지보수5

장애관리와 문제관리 ITIL Service Management Practice 중에 Problem Management 영역이 있습니다. 보통 서비스 유지보수 절차로는 장애 프로세스 또는 장애/이벤트프로세스, 장애예방 프로세스, 문제관리프로세스 등으로 분류하고 있습니다. 장애 발생시 전파/보고에 대한 절차가 장애 절차라고 한다면, 문제관리 프로세스는 장애 재발방지 및 예방을 위한 근본원인 분석 및 관리에 촛점을 두고 있습니다. 물론 이 두가지 프로세스는 독립적이 아니라 밀접한 관련이 있습니다. 장애에 대한 용어 설명은 굳이 하지 않아도 이해하고 계시겠지만, 이벤트라는말은 생소할 수 있습니다. 이벤트의 뜻은 ‘고객에게 제공하는 서비스에 영향즉, 장애를 유발할 수 있는 시스템의 징후’ 라고 정의할 수 있습니다. 예) 파일시스템 .. 2019. 11. 13.
우편집중국으로 뛰어 간 날 신용카드 청구시스템을 운영할 때 에피소드 한가지를 소개하려고 한다. 신입사원의 첫번째 업무중 하나는 야간 배치작업이 지연되었을 때 아침 출근 전에 Mainframe 서버가 있는 여의도로 뛰어가서 일일 매출실적 데이터를 말은 릴테이프(Reel Tape)를 받아서 AS400 시스템으로 전달하는 일이다. 마찬가지로 청구시스템의 업무 성격은 매월 신용카드 결제일 청구서 발행을 위해 청구데이터를 생성한 후 릴테이프에 저장시킨 후 청구서 출력 대행 업체에 테이프를 보내 청구서를 찍는 프로세스이다. 매월 청구작업시 마다 사용되는 릴테이프가 2~30개 이상 사용되므로 1개라도 누락되거나 하면 청구서 미배달의 큰 사고로 이어질 수 있으며, 또한 그 때 당시는 한달에 결제일이 두번 11일, 26일 이어서 이전 작업에 사용.. 2019. 11. 5.
내가 맡은 첫 운영업무는 내가 IT회사에 입사하여 처음으로 맡은 업무는 신용카드 청구시스템 운영이었다. IBM Mainframe 환경으로 주로 야간 배치작업으로 고객의 신용카드 실적데이터를 반영하는 일이 주작업이다. 사수가 나에게 시킨 첫번째 일은 SYSIN 이라고 하는 JCL(Job Control Language)로 만든 배치작업에서 사용되는 날짜 파라미터를 Case에 따라 고치는 일이다. 가장 단순한 것은 당일을 YYYYMMDD로 입력하는 것이고, 복잡한 것은 전전영업일 ~ 전영업일, 매월첫째 영업일~ 전영업일, 전월13일~금월12일, 등등이었다. 100여개 정도 되는 날짜 규칙으로 SYSIN을 입력하는 일이었지만 그때는 아무 생각없이 SYSIN 입력하는 옆에 주석으로 설명되어 있는 "전영업일" 이라는 단어만 보고 내가 알아.. 2019. 11. 2.
유지보수/운영에서 필수적으로 관리해야 할 산출물은 무엇인가? SM담당자들에게 참고문서가 필요한것인가? 새로 투입된 담당자들에게 막막한 경우는 언제일까? 운영하다가 시스템오류가 생겼을 시 대처하는 방법을 모르는 경우에 눈앞이 캄캄해질것이다. 이전 담당자를 절실히 찾게되고, 아쉬워지는 상황이 생길텐데... 그 이전에는 이런 절심함이 느껴지지 않는게 당연하다. 운영자 매뉴얼이 있었다면 도움이 되었을텐데... 하지만 운영자 매뉴얼도 운영할 본인주관대로 정리한 거라... 후임자에게는 별로 도움이 안될 가능성이 높다... 2019. 10. 7.
장애가 나면 그제서야 난리 어느날 아침 출근하면 모여서 웅성웅성하는 장면을 간혹 보게된다. 십중팔구 시스템 장애가 나서 운영팀장을 비롯하여 관련 운영담당자 및 현업담당자까지 모여서 해결책에 대해 고민하고 있는 것이다. 주위의 모든 일이 사후약방문으로 조치되는 일이 파다하지만 소프트웨어에서도 똑같다. 장애가 발생하면 리더나 경영층은 왜? 대책은? 있을 수 없는 일이 일어났나? 사전에 왜 방지못했나? 라고 다그치는데, 결론은 돈이 없어... 그러다가, 큰 이슈가 되면, 장애 예방을 위해 이중화, 장비 증설, 성능개선 등 인프라를 강화하고, 장애 예방에 대한 교육을 수행하게 된다. 나아가 장애 모의훈련, 장애 발생시 신속복구할 수 있는 매뉴얼, 일일예방점검 체크리스트, 선감지 모니터링 시스템 까지 개발하게 된다. 2019. 10. 7.