성능 모니터링 솔루션의 변화 I - APM, E2E, AIOps

Digital Transformation이 가속화되면서 성능 모니터링 솔루션에는 어떠한 변화가 생겼을까요? 성능 모니터링 솔루션 APM, E2E, AIOps에 대해 정리해 보았습니다.

작성일 2022년 05월 11일

여러분들은 Digital Transformation(DX)을 알고 계시나요?

Digital Transformation(DX)란, 고객이 경험하는 라이프 사이클의 모든 접점에서 디지털을 통해 기술 및 사업 모델을 재편성 한 것인데요. 디지털 기술을 사회 전반에 적용하여 사회 구조를 혁신시키는 것을 의미합니다. 직역 그대로 사회가 디지털로 전환된다는 것이죠.
(Digital Transformation(DX)에 대해 자세히 알고 싶으시다면 여기서 확인할 수 있습니다.)

이번 시간에는  Digital Transformation(DX)이 가속화되면서 성능 모니터링 솔루션에는 어떤 변화가 일어났는지 들려드립니다.  총 2편에 걸쳐 정리한 내용을 포스팅할 예정이며, 첫 번째 시간인 이번 시간에는 성능 모니터링 솔루션 APM, E2E, AIOps에 대해 정리해 보았습니다.


APM 시장의 활성화

언택트 기술이 폭발적으로 증가하면서 ICT 기업을 중심으로 Digital Transformation(DX)이 가속화되고 있습니다. 이에 많은 기업들이 APM을 도입하고 있습니다.

이미 APM 모니터링의 시장은 포화라고 보았으나, COVID-19가 가져온 DX 영향으로 약 20% 정도의 매출 상승세를 보였습니다.

-제니퍼 소프트: 업계 1위 유지, 최근 2~3년간 매출 30~40% 성장
-엑셈: 2020년 매출 맥스게이지 29% 증가, 인터맥스 20% 증가
-와탭: 손익분기점 넘어섰다

즉 COVID-19의 영향으로 DX가 가속화된 지표로, 웹 서버 군 어플리케이션 모니터링 시장의 매출 확대로 보셔도 될듯합니다.


모니터링 시장의 주요 트렌드 변화

해외 제품의 모니터링 시장의 트렌드를 보면 4~5년 전에는 E2E (End to End)가, 최근에는 AIOps (AI가 운영)가 주요 시장의 키워드입니다.

요즘은 웹사이트뿐만 아니라 모바일 앱이 고객의 접점에서 중요한 부분이 되면서, 모니터링의 영역이 전방위적으로 확대되고 있는 상황입니다. 그래서 Dyantrace, AppDynamics 같이 전통적인 E2E 모니터링에 강점을 가진 APM의 외부 영역을 모니터링해야 한다는 관점에서 Digital Experience Monitoring (a.k.a. DEX)이라는 용어를 만들었습니다. SaaS 모니터링의 절대 강자인 New Relic은 Digital Customer Experience (a.k.a DCX)라는 용어를 사용합니다.

그럼 어떻게 모니터링 트랜드가 변경되었는지 알아보도록 하겠습니다.


E2E (End to End) 모니터링

E2E 모니터링이란, 고객이 보는 화면부터 서버까지 전체의 트랜잭션을 모니터링하는 것입니다. 즉 트랜잭션 분석에 방점이 찍혀 있습니다. 기존의 모니터링 업체들의 태생은 서버 사이드의 모니터링에 집중하고 있었습니다.

그래서 E2E 모니터링은 프론트엔드 자체의 모니터링에 더 집중하기보다는 프론트엔드에서 발생한 트랜잭션이 서버까지 가서 다시 되돌아오는 응답시간이 얼마나 걸리느냐에 초점을 맞췄습니다.

또한 이 부분이 강조된 이유는, 금융권과 같이 거래가 주를 이루는 기업에서 거래 추적과 같은 더 강화된 E2E 모니터링을 요구했기 때문입니다. 그래서 엑셈의 InterMax와 같은 회사들은 APM + DB 모니터링 + @를 합쳐서 E2E 모니터링에 집중을 했습니다.

하지만 후발주자 입장에서는 절대적인 APM 강자인 제니퍼소프트 (시장 점유율 60% 이상), 그리고 여러 가지 오픈소스 APM (스카우터, ELK APM) 등이 높은 점유율을 가지고 있어 기존 플레이어와의 차별화된 성격을 가져가기 위해 E2E 모니터링을 강조한 경향도 있습니다.(생각보다 APM 구입 고객들 중에 E2E를 적용한 비율은 매우 적습니다.)

엑셈은 인터맥스(APM)과 맥스게이즈(DB 모니터링) 제품을 판매하고 있습니다. 국내 시장에서는 APM 일인자 제니퍼소프트(APM)와 셀파소프트(DB 모니터링)가 서로 연합하여, APM + DB 모니터링을 제공하고 있습니다.


AIOps

근래 모니터링 시장의 화두는 AIOps였습니다. AIOps(Gartner에서 만든 용어)란 인공지능을 사용하여 더 빠르고 정확한 의사 결정을 수행하고 사고 대응을 개선하는 IT 플랫폼 및 프로세스를 말합니다.

그동안 모니터링 툴이 제공하는 다양한 지표를 읽고, 시스템의 결합이나 병목 지점을 찾아낼 수 있는 능력을 시스템 엔지니어 또는 개발자에게 의존했습니다.

하지만 이러한 경우 운영 파트에서는 무엇이 우선순위가 높은지, 개발자 말대로 이슈를 그냥 넘어가도 되는지 판단하기에 어려움이 있었습니다.

AI는 문제의 원인을 찾을 수 있게 근본 원인의 후보를 찾아 주거나, 선제적 장애 대응을 하는데 초점이 맞추어져 있습니다. 전문가를 완벽하게 대체할 순 없으나 힌트나 추천을 통해 문제의 원인을 줄여 주는 것만으로 큰 도움이 됩니다.

예를 들어, AI가 도움을 줄 수 있는 영역은 다음과 같습니다.

-전문가 경험치의 기준 정립 vs AI가 정해준 임계값 설정
-지표에 대한 해석의 도움
-상관관계, 시계열 분석 등을 통한 비정상적인 행위 파악, 문제의 근본 원인 추천


해외 성능 모니터링 시장의 대표적인 3개의 APM 회사들이 생각하는 AIOps의 가치나 기능들은 다음과 같습니다 .

Splunk가 보는 AIOps

splunk

서비스 운영조직을 중심으로 기능을 제공

  • 장애 자동 감지, 자동 복구를 통한 운영자의 피로도를 감소
  • 선제적 장애 대응으로, 장애 후 복구 시간 - MTTR(Mean-Time-to-Repair) 축소
  • MTTR을 줄이는 만큼 높은 수준의 SLA(Service Level Agreement)를 제공
  • 사용자의 서비스 이탈 방지 및 고객 신뢰 향상

New Relic이 보는 AIOps

diagram-applied-intelligence-workflow

개발자 중심의 Transaction 기반의 문제 원인 서비스

  • 이상 징후 및 이상 값 즉시 감지
  • 이벤트의 상관관계 수립으로 알람 피로 감소
    (알람을 자동으로 그룹화하여 노이즈를 감소)
  • 신속하게 문제의 근본 원인 파악

DataDog이 보는 AIOps

solutions-aiops-correlations

다양한 이질적인 환경을 모니터링하는 MSA에 최적화된 모니터링 서비스

  • 기계 학습을 통한 빠른 시스템 확장 및 환경 관리
  • 사용자 설정 없이 애플리케이션 전체에서 문제 자동 감지
  • 잠재적인 근본 원인을 즉시 식별하는 자동 상관관계
  • 예상되는 변화와 장기적인 추세를 고려한 이상 감지
  • 크고 동적인 어플리케이션/서비스 모니터링을 위한 이상 값 감지
  • 병목 현상 방지를 위한 예측
  • 즉각적인 진단을 위한 근본 원인 분석

맺으며

E2E 모니터링에서 AIOps로 진화한 부분에대해서 간략히 소개 드렸으며, 다음 편에서는 요즘 이슈가 되는 DEM(Digital Experiecne Monitoring)에 대해 정리하여 공유드립니다.


IMQA(모바일 앱 성능 모니터링 솔루션)에 대해 궁금하신 점이 있다면 언제든 연락 부탁드립니다.

Share on

Tags

IMQA 뉴스레터 구독하기

국내외 다양한 기술 소식을 선별하여 매월 전달해드립니다. IMQA 뉴스레터를 통해 기술 이야기를 함께해보세요.

구독하기