-
고성능 인공지능 개발을 위한 합성 데이터 생성 기술 동향주간기술동향 2024. 12. 29. 18:55
ITFIND 주간기술동향 2135호
본 내용의 경우 IITP의 주간기술동향에 대해서 요약한 내용으로 원문은 아래의 링크를 참고 부탁드립니다.
https://www.itfind.or.kr/streamdocs/view/sd;streamdocsId=KXIxzGTSg70b3CtPB6nyfwiMwqo_HkuMvXmWtn5oga4
발행일: 2024-05-29
I. 서론
AI를 개발할 때는 여러 요인을 고려해야 하는데, 빅데이터 수집과 데이터 큐레이션이 중요하다고 알려져 있으며 AI의 성능에 많은 영향을 미치게 된다. AI가 높은 정확도를 가지기 위해서는
1. AI 학습용 데이터가 실제 운영 시 센서로부터 입력되는 데이터의 특성을 잘 반영해야 하며, 2. AI가 검출, 인식, 판별하려는 목표 대상의 종류, 색상, 형체, 자세, 광원, 배경 등에 대해 데이터의 다양성을 포함해야 한다.
하지만 인력 기반의 데이터 수집은 비용이 많이 들고 수집 기간도 길며, 이러한 상황에서 데이터 수집의 문제가 AI 개발에 걸림돌로 작용한다.
이러한 데아터 부족 및 편향 문제를 해결하는 데에는 데이터 증강 (data augmentation)기법이 도움이 되지만 보유한 데이터가 극히 적거나 없을 때는 유효하지 않으며, 이를 극복하는 방안으로 합성 데이터를 고려할 수 있다.
합성 데이터는 기존에 존재하지 않는 가상의 데이터를 AI 합습에 활용하는 것으로, 텍스트, 이미지, 비디오, 3D 시뮬레이션 등 다양한 형태가 존재한다.
합성 데이터 활용의 유명한 사례로는, 바둑 AI에서 초기 알파고가 기존의 실제 기보들로 학습이 되었던 반면에 알바제로와 같은 후속 AI 모델들은 정해진 규칙만으로 AI가 바둑을 두면서 기존에 없던 가상 기보들을 만들어 내고 이를 바탕으로 더 높은 정확도를 갖게 되었던 것을 볼 수 있다.
글로벌 시장조사기관 가트너에서 발표한 자료에 따르면 2030년경에는 AI 학습에 합성데이터를 실제 데이터보다 더 많이 사용할 것으로 전망하고 있으며, 이러한 합성 데이터 없이는 고성능, 고품질 AI 개발이 불가능할 것으로 예측했다.
II. 목업 모델과 3D 시뮬레이션 합성 데이터 기술
가상의 데이터 중에 가장 직관적으로 생각할 수 있는 것은 프로토타입이라고도 불리는 물리적 모델이다.이는 실제 피사체와 유사한 형태의 모형을 제작하는 것으로 AI 학습과 평가에서 모두 사용될 수 있다.
(물리적 목업 방식)
실제로 모빌리티 분야에서는 유럽에 출시되는 차를 평가하는 Euro NACP (NEW Car Assessment Programme) 프로그램에서 자동긴급제동 성능을 평가하기 위해 더미 모형을 활용하고 있다.
또한, 방위산업에서는 실제 표적을 소형화하여 제작한 모형을 이용하여 AI 학습용 데이터를 수집하기도 한다. 이러한 목업 모델은 실제 환경에서 카메라와 같은 센서로 촬영하기에 향후 AI가 운영될 환경을 반영할 수 있으나, 모형 제작 기간이 오래 걸리고 비용이 많이 들며, 실물과 다른 특성으로 인해 AI 과적합이 발생하는 경우 성능이 저하될 수 있다.
(컴퓨터 그래픽스 또는 게임 기술을 활용한 3D 시뮬레이션 도입)
실세계와 유사한 모습의 디지털트윈을 구축하여 가상 환경에서 디지털 목업을 이용하여 데이터를 수집한다. 이러한 형태의 가상 데이터는 모빌리티 분야에서 많이 사용되며, 주로 Unity와 Unreal Engine을 이용하여 가상 환경을 표현한다.
가상 환경 내에 포함되는 차량, 보행자와 같은 디지털 목업을 제작하는 방법으로는 실제 도로를 다니면서 3D 스캐너와 같은 센서를 이용하여 수집하거나, 실측을 통해 정확한 비율을 계산한 뒤 디자이너들이 수작업으로 모델링을 진행하는 경우가 많으며, 최근에는 카메라를 이용하여 다양한 뷰포인트에서 촬영한 뒤 자동으로 3D 모델을 복원하는 방법이 인기를 얻고 있다.
이 중에서 가장 인기가 있는 방법은 NeRF (Neural Radiance Fields)로 동일한 물체를 촬영한 여러 장의 이미지로부터 새로운 시점에서의 물체 이미지를 만들어 내는 뷰 합성 모델로, 이렇게 새로운 뷰에서 물체를 보는 것이 3D 모델을 생성하는 것과 동일한 효과가 있다.
다른 한편으로는, 생성형 AI를 활용하여 3D 모델을 자동으로 생성하기도 하는데, NVIDIA에서 소개한 GET3D라는 기술이 유명하며 기하구조와 텍스처를 생성하고 생성된 객체의 RGB 이미지와 2D 실루엣이 사실적인지 판별하는 판별자를 이용하여 사실적인 3D 모델을 쉽게 생성할 수 있다.
3D 시뮬레이션의 장점으로는, 가상 환경을 한번 구축해 놓으면 3D 모델을 재사용할 수 있고, 광원의 위치나 조명의 밝기 등을 비교적 쉽게 바꿀 수 있으며, 사용자의 의도에 맞게 다양한 표현이 가능하다는 점이다.
하지만, 3D 시뮬레이션의 단점은, 실세계를 수식으로 추상화하여 표현하기 때문에 실제 카메라나 센서의 특성과는 차이가 있고, 이러한 이유로 3D 시뮬레이션 이미지를 AI 학습에 사용하는 경우 물체 검출 및 인식도가 20~30% 저하된다는 연구 결과들이 다수 존재한다.
아래 그림의 KITTI, BDD, CITYSCAPE는 실제 도로에서 카메라로 수집된 데이터이며, Synthia, Synscape, ISETAuto는 다양한 3D 시뮬레이션 방법으로 취득한 가상 데이터이다.
3D 시뮬레이션 데이터는 AI 학습용 데이터가 거의 없는 상황에서는 도움이 될 수 있지만, 실제 운영 시 높은 정확도를 요구하는 자율주행이나 방위산업에서는 센서의 특성 및 품질 차이로 인해 AI 개발에 단독으로 사용되기 어렵다. 이를 보완하기 위한 방안으로 최근 이미지, 비디오 생성형 AI 기술을 활용하려는 시도가 생기고 있다.
III. 이미지, 비디오 생성형 AI를 활용한 합성 데이터 기술
이미지 합성 데이터를 생성하는 AI 기술은 아래 그림처럼 다양한 모델들이 존재한다.
GAN (Generative Adversarial Network)
GAN (Generative Adversarial Network) 모델은 생성자인 generatro와 판별자 discriminator 두 가지 컴포넌트로 구성되는데, 생성자는 사용자가 원하는 임의의 이미지를 만들어 내고 판별자는 입력된 이미지가 실제인지 가짜인지를 구별하면서 함께 학습되어 궁극적으로 판별자가 실제와 구분을 할 수 없을 정도의 정교한 가짜 이미지를 만들어 내도록 생성자를 학습시키는 모델이다.
CycleGAN은 주어진 이미지를 다른 이미지로 상호 변환하는 것에 특화된 모델이며 StyleGAN은 주어진 이미지의 스타일 (속성)을 편집하거나 합성하는 것에 특화된 모델로 사람의 얼굴이 주어졌을 때 헤어스타일, 성별, 표정, 나이 등을 쉽게 바꿀 수 있다.
GAN 모델들은 두 컴포넌트를 학습시켜야 하기 때문에 학습이 불안정하며, 이미지의 콘텐츠가 복잡한 경우에는 학습이 되지 않고 사람의 얼굴과 같이 데이터 사이에 정렬이 잘 되는 경우에만 생성이 가능하다는 한계가 존재한다.
VAE(Variational Autonencoder)
VAE는 데이터를 잠재 공간 (latent space)의 벡터로 압축하고 다시 원본으로 복원하도록 학습하는 모델로, 잠재 벡터는 가우시안 분포와 같이 다루기 쉬운 확률 분포에 근사되도록 한다. 학습이 완료된 후에는 잠재 벡터를 조절하여 새로운 데이터를 생성할 수 있지만, 이미지에 VAE를 적용하는 경우에 결과물의 품질이 떨어진다는 단점이 있어 합성 데이터 생성에는 많이 사용되지 않고 있다.
플로우 기반 모델(Flow-based models)
플로우 기반 모델은 데이터 분포를 명시적으로 학습하여 고품질 데이터를 만들 수 있는 모델인데, 데이터 생성을 위해 역변환이 가능한 특수한 형태의 아키텍처를 사용해야 하는 제한이 있어 널릴 사용되지는 않고 있다.
디퓨전 모델(Diffusion models)
디퓨전 모델은 DDPM (Denoising Diffusion Probabilistic Model)논문이 발표되면서 이지미 생성 기술이 본격적으로 시작되었다.
DDPM은 이미지가 주어졌을 때 여러 단계에 걸쳐 작은 가우시안 노이즈를 더해가면서 최종적으로 완전한 노이즈를 얻게 되고, 단계별로 노이즈가 적용된 여러 이미지들이 주어져 있으므로, 노이즈로부터 이미지를 복원하는 디노이징을 수행하는 과정에서 새로운 이미지가 생성되게 된다. 디퓨전 모델은 기존의 GAN 기반 생성형 AI보다 학습이 안정적이고 데이터 분포를 잘 따르는 고품질의 합성 데이터를 생성할 수 있다는 가능성을 보여, 많은 연구자들이 후속 연구를 진행하고 있다.
최근의 디퓨전 모델 중에서 가장 주목할 만한 기술은 스테이블 디퓨전으로 기존 DDPM이 이미지의 픽셀 공간에서 노이즈 제거로 생성했던 것에서 더 나아가, 이미지를 오토인코더에 통과시키고 크기가 작은 잠재 벡터로 만든 뒤, 잠재 공간에서 이 벡터의 노이즈 제거를 통해 더 효율적인 이미지 생성이 가능하게 되었다.또한, 어텐션 메커니즘을 활용하여 문자열과 이미지 등 다양한 컨디션을 활용한 이미지 생성이 가능하며 본격적인 문자열 기반 이미지 생성이 시작되었다.
생성형 AI 기술은 아래와 같이 개념적으로 크게 3가지로 구분할 수 잇다.
1. "이미지 생성" 기술은 스테이블 디퓨전 기술과 유사한 방식으로 문자열 및 이미지 등의 조건을 입력받아 기존에는 존재하지 않은 새로운 데이터를 만들어 낸다. 조건부 이미지 생성은 스테이블 디퓨전 외의 생성형 AI를 사용하더라도 CLIP (Contrastive Language-Image Pre-Training)이나 크로스어텐션 메커니즘을 활용하여 다양하게 개발이 가능하다.
2. "이미지 변환" 기술은 기존에 수집된 실제 데이터 또는 생성된 합성 데이터로부터 날씨, 계절, 시간, 카메라 종류 등을 바꾸어서 새로운 데이터로 바꾸는 기술이다. 이는 CycleGAN을 활용하는 것도 가능하며, 최근에는 디퓨전 모델에서 이미지를 입력하여 다른 이미지를 생성함으로써 고품질 합성 데이터 생성이 가능하다.
3. "이미지 합성" 기술은 이미지에 포함되지 않은 새로운 피사체를 배경과 조화롭게 추가, 삭제, 변경하는 기술로 데이터 편향 및 부족 문제를 해결하는 데 유용한 기술이다. 주어진 이미지에 피사체 합성을 하는 방법은 이미지 조화 기술이 많이 사용되었으며, 최근 생성형 AI를 이용한 기술들은 피사체를 있는 그대로 합성하지 않고 대략적인 힌트만 제공하여 새로운 피사체를 생성하는 방식을 이용하기도 한다.
이러한 모델로는 컨트롤넷 (ControlNet)이 있으며 기학습된 디퓨전 모델을 활용하여 다양한 조건에 따른 생성이 가능하게 모델을 수정할 수 있다.
'주간기술동향' 카테고리의 다른 글
설명가능 인공지능 기술 동향 및 핵심 과제 (0) 2024.12.07 고속 패브릭 연결망으로 도약하는 메모리 분리 기술 동향과 실현 전 (1) 2024.10.19 오픈랜 (Open RAN)보안과 인공지능 (AI/ML) (1) 2024.10.06 데이터 품질과 생성형 AI 기술 동향 (7) 2024.09.22 ICT 기반의 군중 밀집도 감시 및 위험 행동 인식 기술 동 (2) 2024.09.15