설명가능 인공지능 기술 동향 및 핵심 과제
ITFIND 주간기술동향 2134호
본 내용의 경우 IITP의 주간기술동향에 대해서 요약한 내용으로 원문은 아래의 링크를 참고 부탁드립니다.
https://www.itfind.or.kr/streamdocs/view/sd;streamdocsId=nDYesI8UfdGZlVkmzlZfFHcCXaAOiQ5Tb4NdRZFwOq8
발행일: 2024-05-22
I 서론
최근 인공지능의 발전으로 머신러닝, 딥러닝의 복잡하고 비선형적인 데이터에서 패턴을 자동으로 추출하고 학습하는 능력을 통해 금융, 의료 등과 같은 미션 크리티컬 분야에서도 AI 기반의 의사결정을 하려는 시도가 늘어나고 있다.
그러나 AI 시스템의 불투명한 작동방식으로 인해 AI 시스템의 신뢰성에 대한 요구가 대두되고 있다.Explainable AI (XAI)는 AI 시스템의 의사결정 과정과 작동 원리를 설명하기 위한 기술로, AI 시스템의 신뢰성을 높이는 기술로 주목을 받고 있다.
II 설명가능 인공지능의 발전 및 응용 분야
1. 설명가능 인공지능의 연구 동향
블랙박스로 일컬어지는 복잡한 AI 모델의 의사결정을 설명하기 위해 최근 몇 년 동안 다양한 응용 분야에서 여러 설명가능 인공지능 기법들이 소개되었다. 이 중 대부분 연구들은 분류 모델의 개별 예측에 대한 입력 기여도를 설명하려는데 집중하였다. 이러한 방법을 입력 기여도 방법 (input attribution method)이라 부르며, 이들은 알고리즘의 모델 의존성 여부에 따라 모델 독립적 기여도 방법과 모델 특징적 기여도 방법으로 구분 할수 있다.
입력기여도 방법이란?
: AI 모델이 특정 예측을 내릴 때, 입력 데이터 (특성)가 얼마나 중요한 역할을 했는지를 분석하는 방법으로, 예를 들어, "왜 이 사진이 고양이라고 예측되었는가?" 또는 "왜 이 고객은 대출이 거절되었는가?"와 같은 질문에 답하는 것
가. 입력 기여도 방법 1 : 모델 독립적 기여도 방법
- 대표적인 예로는, 복잡한 AI 모델의 예측을 선형 회귀 모델과 같이 해석이 가능한 모델로 근사하여 설명하는 Local Interpretable Model-Agnostic Explanations (LIME)과 같은 게임 이론에서 고안된 섀플리 값 (Shapely value)의 개념을 차용하여 AI 모델의 예측 크레딧을 각 입력 특징에 분배하는 Shapley Additive Explannation (SHAP) 가 있음
나. 입력 기여도 방법 2 : 모델 특징적 기여도
- 주로 심층 신경망의 기울기 (gradient)를 활용한다. 여기서 기울기는 각 입력 특징의 변화에 따라 심층 신경망의 출력이 얼마나 민감하게 변하는지를 의미하며, 이 기울기를 어떻게 활용하는지에 따라 여러 방법이 존재한다.
- 예를들어, Layer-wise Relevance Propagation (LRP)에서는 심층 신경망의 각 층 간의 비선형 연결을 테일러 전개를 통해 선형으로 근사하는 과정에서 기울기를 활용하여, Integrated Gradients (IG)에서는 입력 공간의 특정 베이스라인에서부터 설명하고자 하는 입력까지의 경로의 기울기를 분하는 것에 활용한다.
다. 사전 설명 기법
- 금융 분야와 같이 특정 분야에서 주로 사용됨
- 금융 분야의 경우 데이터가 주로 표 형태로 존재하는데, 표 형태의 데이터에서는 모델의 성능 때문에 의사결정 나무 (decision trees)와 같은 전통적인 기계학습 방법이 심층학습보다 더 선호됨
- Decision trees는 입력 특징이 트리 구조를 활용하여 사람이 이해할 수 있는 일련의 규칙에 따라 의사결정이 이루어지는데, 이러한 이유로 모델 그 자체로 의사결정이 해석 가능한 장점이 있음
입력 기여도 방법의 유형
1. 모델 독립적 기여도 방법
- LIME (Local Interpretable Model-Agnostic Explanations)
- 복잡한 AI 모델을 간단한 선형 모델로 근사하여 설명.
- 특정 예측의 주변 데이터를 활용해 선형 관계를 학습.
AI가 고양이 사진을 "고양이"라고 예측했다고 했을 경우, LIME은 이미지의 각 픽셀을 분석하여 "귀"와 "꼬리" 영역이 고양이로 분류되는 데 중요한 역할을 한다고 설명
2. SHAP (Shapley Additive Explanation)
- 게임 이론의 섀플리 값을 활용하여 각 입력 특성이 결과에 미친 영향을 수치화
- 모든 입력 특성이 결과에 기여한 정도를 공정하게 계산
예시: 대출 승인 모델
SHAP은 연 소득 점수, 신용 점수, 부채 비율 점수를 기준으로 이를 통해 대출이 거절된 이유를 명확히 이해
2. 모델 특징적 기여도 방법
이 방법은 AI 모델의 내부 구조(특히 심층 신경망)를 활용하여 입력 데이터의 기여도를 분석합니다. 주로 기울기(gradient)를 이용하여 설명
- Layer-wise Relevance Propagation (LRP)
- AI 모델의 각 층(layer)에서 비선형 계산을 테일러 전개를 사용해 선형으로 근사
- 입력 데이터의 각 요소가 예측에 기여한 정도를 역추적
LRP는 X선 이미지를 분석하여 폐의 특정 부위가 종양 진단에 중요한 이유를 시각화
2. Integrated Gradients (IG)
- 기준점(예: 완전히 검은 이미지)과 입력 데이터를 비교
- 입력이 모델 출력을 얼마나 변화시켰는지를 경로를 따라 분석
예시: 텍스트 감성 분석
AI가 리뷰를 "긍정적"으로 분류했다고 합시다. IG는 리뷰의 특정 단어("훌륭하다", "추천한다")가 긍정적인 결과에 얼마나 기여했는지를 계산
3. 사전 설명 기법
사전 설명 기법은 AI 모델이 아닌, 모델 자체가 이미 설명 가능하도록 설계된 경우를 말함
주로 의사결정 나무(Decision Tree)와 같은 전통적인 방법이 사용
예시: 금융 분야
금융 데이터는 주로 표 형태로 존재하며, AI 모델 대신 의사결정 나무를 사용하는 경우가 많습니다.
- 의사결정 나무는 규칙 기반으로 동작하므로 "연 소득이 3천만 원 이상이고 부채 비율이 20% 미만일 경우 대출 승인"과 같은 규칙을 제공
- 이 방식은 모델 자체가 투명하다는 장점
2. 설명가능 인공지능의 응용 사례
의료 분야에서는 AI 기반 의사결정 결과가 환자에게 중대한 영향을 미칠 수 있기 때문에, AI 결정에 대한 적절한 수준의 신뢰성 확보가 필수적이다. 이에 따라, 다양한 XAI 기법이 적극적으로 활용되고 있다. 예를 들어, LIME, SHAP, Anchors 와 같은 XAI 기법들이 COVID-19, 만성 신장 질환 진단, 곰팡이균 및 박테리아 감영 진단에 적용되어 AI 시스템의 진단에 영향을 미친 요인을 분석하고 설명하는데 사용되었다.
금융 분야에서는 신용 위험 평가, 사기 거래 탐지 등의 태스크에 AI가 사용되고 있으며, 고객의 설명 요구권 등과 같은 법적 요구 및 규제를 만족시키기 위해 XAI의 필요성이 강조되고 있다.
예를 들어, 유럽 일반 개인정보보호법에 따르면, 고객이 대출 심사에서 거절 당한 경우 은행은 반드시 명백하고 납득할 수 있는 이유를 제공해야 한다.
III 설명가능 인공지능의 핵심 과제 및 연구 방향
1. 생성형 모델 및 대규모 언어 모델에 대한 설명 제공
디노이징 확산모델 혹은 GPT 기반의 대규모 언어 생성 모델과 같은 생성형 AI 모델은 그들의 뛰어난 생성 능력으로부터 많은 분야에 혁신을 불러 일으키고 있다. 그러나, 기존 XAI 방법을 통해 이러한 대규모 모델을 설명하려는 시도는 뉴런의 다의성과 같은 모델의 고차원적인 특성에 의해 제한되고 있다.
이러한 문제로 기존의 XAI 방법은 대부분 분류 (classification) 및 회귀 (regression) 문제에 국한되어 왔다.
LLM의 생성 과정을 설명하는 것에 있어서 또 다른 과제는 스케일링 법칙에 관한 것이다.
신경망 스케일링 법칙 (neural scaling laws)은 신경망 아키텍처의 레이어수나 학습 데이터의 크기 등 매개변수와 학습 후의 신경망 성능 간의 관계를 설명하는 법칙이다. 이 법칙은 LLM의 전반적인 성능을 지배하지만, 이 법칙이 예측할 수 없게 나타나는 경우에 개별 작업 수준에서의 함의를 정확하게 이해하는 것이 어려운 일이다. 스케일링 법칙을 사용하여 LLM이 학습한 인공물이나 개념의 품질을 추론할 수 있는지 여부는 아직 미해결 과제이다.
생성형 모델을 설명하기 위한 유망한 방법으로는 기계론적 해석 가능성 (mechanistic interpretability)이 있다. 이 방법론의 핵심은 신경망을 역공학적으로 분석하여 모델이 실제로 어떻게 작동하는지 파악하는 것이다. 기계론적 해석을 통해 그로킹 메커니즘 (학습 데이터보다 많은 매개변수를 가진 네트워크에서 일반화 성능이 갑자기 증가하는 현상)의 원인을 이해하거나 재귀적으로 문제 해결하는 능력을 가진 신경망의 특성을 이해하는것에 활용될 수 있다.
2. 기존 설명가능 인공지능 기술의 개선
XAI 방법론의 주요 분야 중 하나는 입력 기여도 방법이다. 이러한 방법에는 입력의 변화를 통해 출력의 변화를 관찰하여 기여도를 측정하는 섭동 (perturbation) 기반 방법과 입력에 대한 출력의 기울기 (gradient)를 통해 기여도를 측정하는 기울기 기반 방법이 있다.
입력 기여도 방법은, 영리한 한스 (Clever Hans) 효과로 불리는, 학습된 신경망 모델의 편향과 결함을 확인하는 데 성공하는 등 큰 성공을 거두었으나, 몇 가지 주요 기술적 한계가 존재한다.그 한계 중 하나는 입력 기여도 방법이 하이퍼 파라미터 설정에 민감하게 반응한다는 점이다. 예를 들어, 모델 독립적 기여도 중 대표적인 방법인 LIME 및 SHAP은 입력 섭동의 범위에 따라 입력 기여도 결과가 민감하게 달라질 수 있다. 마찬가지로, 대부분의 기울기 기반 입력 기여도 방법은 적절한 샘플링 간격을 설정해야 한다.마지막으로 LRP와 같은 기여도 전파 방법은 심층 신경망의 각 레이어에 맞게 기여도 전파 공식을 조정해 주어야 하는 한계가 존재한다.
이러한 문제를 해결하기 위한 한 가지 방안은 각 기여도 방법의 취약한 특성을 보완하는 포트폴리오 접근법을 취하는 것이다.
3. 설명가능 인공지능 주요개념의 명확한 정의 정립
XAI는 여러 전문분야가 결합하는 다학제적 성격을 가지고 있어 분야별로 이질적인 개념 및 용어를 일치시키고 불분명한 개념을 명확하하는 것이 필요하다. 특히, XAI 연구에서 신뢰성을 위해 AI가 갖추어야 할 특성으로 설명가능성 (explainability), 해석가능성 (interpretability), 투명성 (transparency) 등 다양한 개념을 제시하고 있지만, 그 용어의 정의와 개념이 모호하여 응용 연구 및 학제 간 협력에 걸림돌이 되고 있다.
4. 설명가능 인공지능 및 설명의 정교한 평가방법 고안
XAI 시스템에 대한 평가 프레임워크를 구축하는 것은 XAI 방법론을 개발하는 것에 있어 필수적이다. 그러나 좋은 설명이 무엇인지에 대한 표준이 존재하지 않기 때문에 XAI 방법을 평가하는 것은 XAI 발전에 있어 핵심 과제이다.
예를 들어, 설명의 품질을 평가하기 위해 심리 측정 지표를 활용하는 시도가 있었고, 여러 과학적 연구에서 사용되는 평가 방법을 적용하는 시도가 있었다. 또한, XAI 시스템 평가를 위해 지표에 대한 많은 연구들이 수행되었는데, 다양한 평가 결과를 비교하는 방법에 대한 공통된 합의는 아직 이루어지지 않은 실정이다.
5. 사람 중심의 설명 지원
XAI의 또 한 가지 도전 과제는 설명을 받아들이는 사람 중심적인 설명을 제공해야 한다는 것이다. 사람 중심 설명을 역설한 연구에는 AI 모델에 대한 설명이 사람이 이해 할 수 있도록 사회적이고, 대조적이며, 선택적이어야 한다는 연구가 있다.
하지만 기울기 기반의 입력 기여도 방법과 같은 대부분의 XAI 방법들은 이러한 속성을 만족하지 못하는 문제가 있다. 이들이 제공하는 설명은 입력 데이터 차원 이상으로 나아가지 못하고 있다.
특히, 컴퓨터 비전 분야에서 히트맵 형태로 제공되는 설명은 사람 중심적이지 않은 문제가 있다. 첫째로, 각 픽셀들의 기여도로부터 AI 모델이 학습한 개념을 추론할 수 있는 것은 대부분 전문가들 뿐이가, 일반인들은 픽셀 기여도의 의미를 이해하기 힘들 수 잇다. 둘재로, 클래스 간 구분이 이미지 내 개념들 간 복합적 조합들로부터 이루어지는 복잡한 태스크에서는 픽셀 기여도로부터 모델이 학습한 개념을 이해하는 것이 쉽지 않다. 마지막으로, 픽셀 기여도로부터 학습된 개념을 설명하려는 시도가 추측에 불가할 때가 있다. 입력 이미지가 사람이라고 분류한 모델에 대해 히트맵이 사람의 얼굴을 가종한 상황을 예로 들었을때, 픽셀 기여도만으로는 모델이 입력 이미지로부터 추출한 개념이 얼굴의 모양인지, 피부색인지, 혹은 그들의 종합적인 조합인지가 불분명하기 때문이다.
사람 중심의 설명을 지원하기 위해 개념 기반 설명 방법을 활용하여 사람이 이해하기 쉬운 설명을 제공하는 것이 도움이 될 수 있다.
6. 설명가능 인공지능 기법의 사용자 맞춤형
7. 설명가능 인공지능의 부정적 영향 완화
6. 설명가능 인공지능 사회적 영향력 강화
더 자세한 내용은 ITFIND 주간기술 동향 2134호를 확인 부탁드립니다.