AI 생체 테스팅과 표준화 현황 Ⅱ 생체인식 테스팅 표준

안녕하세요. IMQA입니다.

어니컴과 STA는 현재 AI 안면인식, 이상행동 실증 및 평가 사업을 진행 중에 있습니다.  이 글은 AI 테스팅의 전문성을 알리기 위해 작성되었으며, 소프트웨어정책연구소(SPRi)에 공유가 되었습니다.

이번 글은 지난 포스팅 AI 생체 테스팅과 표준화 현황Ⅰ_ 국내외 동향에 이어지는 글로,  AI 생체 테스팅과 표준화 현황Ⅱ_생체인식 테스팅 표준화에 대해 알려드립니다.


저자 :  손영수 (어니컴),   스튜어트 리드 , 최영재  (STA 테스팅 컨설팅)

ISO/IEC 생체인식 테스팅 표준

안면인식을 포함한 생체인식 시스템은 여러 구성 요소로 이루어진 시스템이기 때문에 그것을 올바르게 검증하기 위해서는 다양한 측면에서 고려할 필요가 있다. ISO와 IEC에서도 관련 분야의 여러 표준을 개발 및 배포하고 있다.

ISO와 IEC의 JTC1(Joint Technical Committee 1) 내에는 여러 개의 전문 위원회(SC, sub-committee)가 존재하며, 각 전문 위원회는 특정 분야 표준을 담당하며 각 전문 위원회 안에는 여러 워킹그룹(WG, Working Group)이 존재한다. 그림 6은 생체인식 시스템과 관련된 JTC1의 주요 전문 위원회를 보여주고 있다. 좌측의 청색으로 표시된 SC7 산하 WG26은 소프트웨어 테스팅을 담당하고 있다. SC37은 생체인식을 담당하고 있는 전문 위원회이며 WG5는 생체인식 테스팅을 맡고 있다. 생체인식 시스템과 관련된 보안 테스팅이나 생체인식 정보 저장 매체에 관한 표준을 담당하는 다른 2개의 전문 위원회도 그림에 표시돼 있다.

2002년에 출범한 SC37은 생체인식 표준을 현재까지 131개 배포했으며 지금도 29개의 새로운 표준을 개발하고 있다. SC37에는 29개국의 표준 기구가 참여하고 있으며 우리나라의 KATS(국가기술표준원)도 참여하고 있다. 참관 자격으로 참여하는 국가 기구도 19개가 있다.

그림 6. 생체인식 테스팅 관련 전문 위원회

생체인식 테스팅 표준 분류

생체인식 테스팅 관련 표준은 여러 가지 방법으로 분류할 수 있다. 한 가지 방법은 그림 7과 같이 4가지 범주로 나눠보는 것이다.

그림 7. 생체인식 테스팅 표준 분류

좌측 녹색으로 특정 유형의 평가에 사용할 수 있는 표준이 표시돼 있다. 예를 들어, 시스템 성능을 측정할 때 고려해야 할 환경 요소나 사용자 상호작용에 관한 표준, 또 생체인식 성능을 평가하는 데 사용하는 지문 데이터베이스 난이도 측정에 관한 표준이 여기에 해당한다.

우측 상단의 ISO/IEC TR(Technical Report, 기술보고서) 29156은 생체인식 요구사항을 정의하는 데 활용할 수 있는 표준이다. 우측 하단의 노란색은 법의학, 모바일 등 특정 분야에서 생체인식 테스팅을 수행하는 데 활용할 수 있는 표준을 표시하고 있다.

마지막으로, 전체를 감싸는 ISO/IEC 19795 표준 시리즈가 표시돼 있다. ISO/IEC 19795는 다른 생체인식 테스팅 및 보고 표준의 근간이 되는 프레임워크를 제공한다.

ISO/IEC 19795 제1부는 생체인식 성능 테스팅과 보고를 위한 원리와 프레임워크(framework)를 제공한다. 2006년에 처음 발표됐으며, 올해 새로운 버전에 배포될 예정이다. 이 표준은 생체인식 시스템 테스팅에 관한 전반적인 지침을 제공하고 있다. 이런 지침은 지문, 목소리, 얼굴 등 사용하는 생체정보와 관계없이 모두 적용할 수 있다. 이 표준의 주요 내용 중에는 생체인식 시스템의 검증에 적용할 수 있는 핵심 성능 평가지표 정의가 있다.

생체인식 표준 간 연관성

그림 8. 생체인식 표준 간 연관성

그림 8은 생체인식 테스팅과 관련된 주요 표준을 원으로 표현하고 있다. 원을 서로 연결하는 화살표는 하나의 표준에서 다른 표준을 참조하는 것을 나타내고 있으며 원의 크기는 해당 표준이 얼마나 자주 참조되는지 보여준다.

앞에서 언급한 ISO/IEC 19795 제1부가 눈에 띄게 크다는 것을 볼 수 있으며, 이 표준이 22개의 다른 표준에서 참조되고 있다는 것을 알 수 있다. 하나의 표준은 평균적으로 2개의 다른 표준에서 참조한다.

같은 시리즈의 표준은 같은 색으로 표시돼 있다. 19795 프레임워크(framework) 표준은 노란색으로 표시돼 있고, 준수 테스팅(conformance testing)과 관련된 표준은 보라색으로, 보안 평가 표준은 황색으로, 생체인식 프로파일 관련 표준은 파란색으로 표시돼 있다. 특정 시리즈에 포함되지 않은 표준은 하얀색으로 표시돼 있다. 여기서 확연하게 중심이 되는 19795 시리즈 표준의 중요성을 확인할 수 있다.

생체인식 테스트 3레벨

생체인식 시스템 테스팅에서 사용하는 3단계 평가를 살펴보고 앞서 언급한 표준이 어떻게 활용되고 있는지 살펴볼 수 있다. 그림 9의 좌측은 각 소프트웨어 개발 단계가 있고 우측은 연관된 테스트 단계를 표시한 일반적인 V 모델을 보여주고 있다. 생체인식 시스템 테스팅은 그것만의 독특한 3레벨이 있다.

그림 9. V 모델과 생체인식 시스템 테스팅 레벨 매핑

가장 아래에는 기술 평가(Technology Evaluation)가 있다. 컴포넌트 테스팅으로 생각할 수 있으며 기술 평가에서는 테스트 데이터베이스(database)에 저장된 생체인식 데이터로 사용해서 이루어진다. 일반적으로 얘기하는 통합 테스팅과 시스템 테스팅은 시나리오 평가(Scenario Evaluation)에 해당된다. 이 단계에서는 실제 센서와 사람을 사용해서 더 사실적인 테스팅이 이뤄지게 된다. 기술 및 시나리오 평가는 19795 시리즈의 제2부에서 자세히 다루고 있다. 운영 평가(Operational Evaluation)는 시범 활용과 운영되는 시스템의 성능 모니터링을 포함한다. 그러다 보니 일반적으로 실제 운영되는 시스템을 가지고 고용된 테스트 인원이 아닌 실제 사람들을 대상으로 이뤄지게 된다. 19795 제6부는 운영 평가에 관한 구체적인 지침을 제공한다.

생체인식 업계에서는 생체인식 시스템의 핵심이 되는 비교 알고리즘의 성능 신뢰성을 강조한다. 하지만, 생체인식 시스템에 존재하는 다른 리스크를 외면하면서까지 비교 알고리즘 테스트에 과한 노력을 들이고 있다고 볼 수도 있다.

리스크 기반 접근 방식을 통해 전반적인 생체인식 시스템에 대해 균형 잡힌 테스트가 이루어질 수 있도록 하는 것이 좋을 것으로 보인다. 비교 알고리즘을 테스트하면서는 테스트 결과가 그 알고리즘이 운영 시스템에 통합됐을 때도 성능을 유지할지 고민해야 한다.

ISO/IEC 29119-13

기존 생체인식 테스팅 표준은 인식 성능 측정이라는 면을 중심으로 얘기하고 있다. 하지만, 사용성, 신뢰성, 반응 시간을 포함한 여러 가지 비기능적 품질특성을 고려해야 할 필요가 있다. 마지막으로, SC37의 생체인식 테스팅 표준은 리스크 중심의 진행을 명시하고 있지는 않다. ISO 29119 소프트웨어 테스트 표준 시리즈의 핵심이 되는 리스크 기반 테스팅 접근 방식을 생체인식 시스템에 적용하는 것은 매우 유용할 것으로 보인다.

이런 이유로 생체인식 시스템의 테스팅에 ISO 29119 소프트웨어 테스팅 표준의 사용을 다루는 ISO 기술 보고서가 개발되고 있다. 이 기술보고서는 우선 생체인식 분야를 처음 접하는 소프트웨어 테스터를 위해 생체인식 분야에 관한 소개를 담고 있으며, 또 SC37 생체인식 테스팅 표준에서 얘기하는 기능 성능 측정지표를 넘어서 생체인식 시스템을 테스트하고자 생체인식 분야 전문가를 위해서 소프트웨어 테스팅에 관한 소개를 제공한다.

생체인식 시스템 테스팅과 관련된 모든 SC37, SC27, SC17 표준을 소개하고 있으며, 가장 중요한 SC37 테스팅 표준과 ISO 29119 시리즈 표준 간의 매핑도 제공한다.

생체인식 시스템을 테스팅할 때 ISO 29119 표준을 준수하고자 한다면, 즉 리스크 기반 테스팅 접근 방식을 활용하기 위해 테스트 전략을 수립 과정에서 활용할 수 있는 리스크 및 그것에 대한 완화 방법을 체크리스트로 제공하고 있다. 마지막으로, 실제 공항에서의 생체인식 시스템을 테스트하면서 개발한 테스트 문서도 예시로 제공하고 있다.

그림 10. ISO/IEC 29119-13 TR

안면인식을 포함한 생체인식 시장은 빠르게 발전하고 있다. 공공분야 외에 민간에서도 도입이 늘어나고 있으며 머신러닝의 발전과 함께 활용 사례가 점점 늘어날 것으로 예상된다. 그러나 아직은 이런 시스템의 성능을 충분하게 검증할 수 있는 기준은 명확하게 확립되어 있지 않다. 지금까지 존재하는 평가 방법은 대부분 인식/매칭 성능 자체의 측정에 머무르고 있다.

앞으로 이런 생체인식 시스템을 사용자가 믿고 사용할 수 있기 위해서는 생체인식 엔진의 성능을 다양한 측면에서 검증할 방법뿐만이 아닌 그런 컴포넌트가 포함된 전체 시스템을 테스팅하는 표준적인 방법이 필요할 것으로 보인다. 과기부와 법무부에서 진행하는 사업을 통해 어니컴(주)과 ㈜STA테스팅컨설팅은 생체인식 테스팅 방법론의 수립과 표준화 노력을 주도하고 있다.

참고 자료

[1] AI식별추적시스템 구축 사업 의의와 성과, 강승준, 정보통신 산업 진흥원.

[2] 인공지능 식별추적시스템 성능 검증 및 실증랩 구축 운영 지원 사업을 통한 평가 모델 고도화 , 손영수 , 어니컴 & STA테스팅컨설팅

[3] AI기반의 안면인식 검증 및 생체인식 테스팅 표준 동향 세미나, Stuart Reid, 어니컴 & STA테스팅컨설팅


AI 테스팅 및 기초 데이터 안면인식방법에 대한 문의 사항은 아래로 연락 부탁드립니다.

AI 테스팅 및 기초 데이터 안면인식에 대한 문의

백민경 차장 (정) - mkbaek@onycom.com
손영수 상무 (부) - ysson@onycom.com