ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 인간을 닮은 인공지능, 멀티모달 인공지능 기술 동향
    주간기술동향 2025. 1. 5. 15:00

     

    ITFIND 주간기술동향 2136호

     

    본 내용의 경우 IITP의 주간기술동향에 대해서 요약한 내용으로 원문은 아래의 링크를 참고 부탁드립니다.

    https://www.itfind.or.kr/streamdocs/view/sd;streamdocsId=UE0zZdUzQm1ZWDzWvOnesg1JDI3SoH31Ngpc3XO058U

     

     

    발행일: 2024-06-12

     

     

     

    I. 서론

    최근에 다양한 형태의 데이터를 통합하여 처리함으로써, 인간과 더 자연스럽게 상호작용할 수 있는 새로운 기술 패러다임이 등장했다. 멀티모달 인공지능 기술이 그것이다.

     

    이 기술은 텍스트, 이미지, 음성, 촉각과 같은 다양한 데이터 소스를 종합적으로 분석하고 활용함으로써, 기존의 단일 데이터 소스만을 사용하는 인공지능보다 훨씬 정확한 분석과 자연스러운 인터페이스를 제공한다. 

     

     

    II. 멀티모달 인공지능 기술 개요

    OpenAI의 Sora는 텍스트로 기술된 내용을 기반으로 사실적인 영상을 만들어 내는 혁신적인 멀티모달 인공지능 기술이다.

    입력과 출력의 양식이 서로 다른 크로스 모달 기술이다. 영상 콘텐츠 제작 분야, 교육 및 학습 콘텐츠 분야, 예술 및 디자인, 게임, 제품 설계 및 시뮬레이션 등 다양한 산업 분야에서 활용할 수 있다.

     

    Modal은 정보를 표현하거나 전달하는 방식을 의미한다. 멀티모달 인공지능 기술은 텍스트, 이미지, 음성, 촉각 등 다양한 양식의 데이터를 동시에 처리하고 분석하여 인간과 자연스럽게 상호작용하는 인공지능 기술을 일컫는다.

     

    멀티모달 인공지능 모델은 다양한 양식을 입력으로 받아서 동시에 훈련함으로써, 서로 다른 양식의 데이터들을 융합할 수 있어야 한다. 아래 그림은 멀티모달 인공지능 모델에 대한 가트너의 개념도이다.

     

    다양한 양식으로 훈련된 멀티모달 모델로의 진화

     

     

    의료 분야에서는 환자의 진단기록, X-ray, CT 이미지, 증상을 함께 분석하여 정확도 높은 진단을 제공할 수 있다.

    또한, 삼성의 빅스비와 같은 챗봇은 음성, 텍스트, 터치와 같은 방식으로 사용자와의 자연스러운 인터페이스를 지원한다.

     

     

    III. 멀티모달 인공지능 핵심 기술

    멀티모달 인공지능 기술은 일반적으로 다음과 같은 3가지 구성 요소를 갖는다.

    • 입력 모듈: 다양한 유형의 데이터를 입력으로 받아서 전처리하거나 개별 양식을 위한 인코딩을 생성한다.
    • 융합 모듈: 양식별 처리된 정보를 다양한 융합 기법을 활용하여 통합한다.
    • 출력 모듈: 통합된 데이터 분석에 따른 결과를 텍스트, 이미지, 오디오, 동영상 등을 포함하는 다양한 양식으로 출력한다.

    아래 그림은 멀티모달 인공지능 시스템의 내부 구조 사례이다. 다양한 양식의 데이터를 입력으로 받아서 통합적으로 처리하고, 다양한 양식의 데이터 형태로 출력한다.

    이러한 멀티모달 인공지능 시스템을 구성하는 것에 있어서 중요한 핵심 기술로는 데이터 퓨전 기술, 모달리티 특정 인코딩 기술, 크로스-모달 학습 기술을 들 수 있다.

     

    NExt-GPT 멀티모달 인공지능 구조

     

     

    1. 데이터 퓨전 기술

     

    멀티모달 인공지능 핵심 기술은 다양한 양식의 데이터를 효과적으로 결합하는 것이다. 멀티모달 데이터 융합은 단순히 여러 양식의 데이터를 합치는 것이 아니라 각 양식의 데이터 간 관계를 파악하고 의미 있는 정보를 추출하는 과정이다.

    멀티모달 인공지능 기술의 데이터 퓨전 기술은 다음의 3가지 방식으로 정리될 수 있다.

     

     가. Early Fusion

    • 데이터 처리 과정의 초기 단계에 다양한 양식의 데이터를 결합하는 방식이다. 이 방식은 모델에 데이터를 입력하기 전에 다양한 데이터 소스를 통합하여 단일의 통합된 특징 집합을 생성한다.
    • 예를들어, 이미지의  픽셀 값과 관련 텍스트의 단어 벡터를 결합하여 하나의 큰 특징 벡터를 만들 수 있다. 이 방식은 다양한 양식 간의 상호작용을 모델이 쉽게 학습할 수 있게 하지만 각 양식의 고유한 특성을 잃을 수 있는 단점이 있다.

     나. Intermediate Fusion

    • 각 양식으로부터 추출된 특징들을 모델의 중간 단계에서 결합하는 방이다. 이 접근 방식은 각 양식의 데이터를 먼저 독립적으로 처리하여 특징을 추출하고, 이렇게 추출된 특징들을 나중에 결합한다.
    • 이 방식은 각 양식의 특징을 보존하는 동시에 다른 양식과의 상호작용을 학습할 수 있는 장점이 있다. 하지만, 최적의 융합 단계를 찾기가 어려울 수 있으며, 모델 학습 과정이 복잡할 수 있다.

     다. Late Fusion

    • 각 양식의 데이터를 독립적으로 처리하고, 각각에 대한 예측이나 결정을 내린 뒤에 이러한 결과를 결합하여 최종 결정을 내리는 방식이다.
    • 이 방식은 각 양식에서 도출된 결론이나 예측을 통합하는 것에 중점을 둔다. 이 방식은 각 양식의 독립적인 처리를 통해 유연한 모델 설계가 가능하지만, 양식 간의 복잡한 상호작용을 학습하는데는 한계가 있을 수 있다.

     

    아래 그림은 3가지 방식의 퓨전 모델에 관한 예를 보여준다. 모든 정보가 하나의 통합 모델로 흘러 들어가는 방식 (early), 하나의 모델에서 나온 출력이 다른 모델의 입력이 되는 단계적 방식 (intermediate) 그리고 각각의 데이터 양식이 별도의 모델링을 거친 후 앙상블 형태로 최종 결과가 취합되는 방식 (late)을 보여준다.

     

    Early, Imtermediate, Late 데이터 퓨전 기술

     

     

     

    2. 모달리티 특정 인코딩 기술

     

    멀티모달 인공지능 기술은 이미지, 텍스트, 음성, 영상 등 다양한 양식의 데이터를 활용하여 인식하고 학습하는 기술이다.

    각 양식의 데이터는 고유한 특징과 구조로 되어 있으며, 이러한 특징을 효과적으로 활용하기 위해서는 양식별 특화된 인코딩 기술이 필요하다. 

     

    각 양식의 데이터 특징을 최대한 유지하여 인코딩함으로써 정보 손실을 최소화해야 하고, 양식 간의 연관성을 효과적으로 표현하여 멀티모달 인공지능 성능을 향상할 수가 있어야 한다. 양식에 따라서 다양한 인코딩 기술이 사용된다.

     

    이미지의 경우 CNN을 이용하여 데이터의 특징을 추출한다. 텍스트의 경우, NLP 기술을 사용하여 텍스트의 특징을 추출한다. 음성의 경우 음성 인식 기술을, 영상의 경우 영상처리 기술을 활용하여 양식별 특징을 추출한 인코딩을 생성한다.

     

     

    3. 크로스-모달 학습 기술

     

    크로스-모달 학습은 이미지, 텍스트, 음성, 영상 등 서로 다른 양식의 데이터를 함께 학습하여 모델의 성능을 향상시키는 기술이다. 각 양식의 데이터는 서로 다른 정보를 제공하며, 이러한 정보를 통합하여 더욱 완전한 이해를 얻을 수 있다. 한 양식의 데이터가 부족할 때 다른 양식의 데이터를 활용하여 학습효과를 높일 수 있으며, 다양한 양식의 데이터를 학습하여 모델의 일반화 능력을 향상시킬 수 있다.

     

    또한, 서로 다른 양식의 데이터를 연결하여 새로운 정보를 추출할 수도 있다. 크로스-모달의 학습 방법으로는 서로 다른 양식의 데이터를 공통된 표현 방식으로 변환하여 학습하거나, 각 양식의 데이터 중요도를 고려하여 학습 과정에 집중할 부분을 조절하거나, 한 양식 정보를 다른 양식의 정보로 변환하여 학습한다.

     

    앞서 언급한 세 가지 핵심 기술들은 주요 멀티모달 모델의 구조에 잘 통합되어 있다. 대표적인 멀티모달 모델인 ViLBERT, ImageBind, CLIP을 통해서 살펴보면 다음과 같다. 

     

    ViLBERT, ImageBind은 양식별 임베딩을 별도로 학습한 후 이를 이용해서 공통된 표현을 학습한다. 임베딩은 인코딩된 데이터를 저차원의 벡터 공간으로 맵핑해주는 기술을 의미한다.

    임베딩 과정에서 중요한 것은 비슷한 데이터들이 벡터 공간에서 서로 가깝게 위치하도록 하는 것이다.

    아래 그림은 ViLBERT 모델이 이미지와 텍스트 각각의 임베딩을 학습한 후, co-attentional 계층 (Co-TRM)을 이용해서 공통의 표현을 학습하는 방법을 도식화한 것이다.

     

    ViLBERT 학습 방법



    아래 그림은 ImageBind가 이미지 데이터를 중심으로 다른 양식들을 조정(align)하여 공통된 표현을 학습하는 방법이다. 다른 양식의 임베딩을 모두 이미지 임베딩으로 조정한다.

    예를 들면, 텍스트 임베딩을 이미지 임베딩으로 조정하고, IMU(Intertial Measurement Unit, 관성 측정 장치) 임베딩을 비디오 임베딩으로 조정한다. 양식별 임베딩을 학습한 후 이미지를 중심으로 임베딩을 조정하여 통합된 표현을 학습한다.

    ImageBind는 6개 양식 (텍스트, 이미지/비디오, 오디오, 깊이, 열, IMU)의 데이터에 대한 공통된 표현을 학습한 것으로, 부족한 양식의 데이터를 다른 양식의 데이터를 이용하여 학습할 수 있다.

     

    또한, 이처럼 다양한 양식의 데이터가 하나의 공간에서 통합적으로 표현되면 재미있는 응용 서비스들이 가능해진다.

    ImageBind가 이미지를 중심으로 다른 양식의 데이터를 통합하는 방법

     

     

    아래 그림은 통합된 표현을 활용한 서비스 예제들이다. Cross-modal retrieval은 오디오로 이미지나 비디오 검색을 하는 것과 같이 입력과 출력의 양식이 다른 검색이다.

    Embedding-space arithmetic은 연산자를 이용해서 서로 다른 양식을 조합하는 서비스이다. 예를 들면, 새의 이미지에 오토바이 소리를 더해서 새와 오토바이가 있는 그림을 생성한다. Audio to image generation은 오디오 데이터 입력으로 이미지가 생성되는 서비스이다.

     

     

    ImageBind를 이용한 서비슷 예시들

     

     

    아래 그림은 CLIP 모델이다. 양식별 인코더를 이용해서 생성한 임베딩 값을 contrastive learning 기법을 이용해서 관계있는 이미지 임베딩과 텍스트 임베딩 거거리는 최소화하고, 무관한 이미지 임베딩과 텍스트 임베딩 거리는 최대화하도록 학습한다. 이렇게 학습된 모델은 zero-shot transfer가 가능하다.

     

    즉, CLIP의 텍스트 인코더를 이용해서 이미지 라벨을 텍스트 임베딩 형태로 변형한 데이터 셋을 생성한다. 그리고, CLIP의 이미지 인코더 부분을 활용한 잉미지 분류기를 만든다. 이렇게 하면, 사전학습에 활용되지 않은 이미지에 대해서도 튜닝작업 없이 분류할 수 있다. 이처럼 zero-shot transfer가 가능한 이유는 공유 임베딩 공간에서 이미지와 텍스트 사이의 의미적 관계가 충분히 학습되었기 때문이다.

     

    CLIP 기술 개요

     

Designed by Tistory.