-
생성형 AI 현황 및 전망주간기술동향 2024. 8. 24. 15:07
ITFIND 주간기술동향 2127호
본 내용의 경우 IITP의 주간기술동향에 대해서 요약한 내용으로 원문은 아래의 링크를 참고 부탁드립니다.
https://www.itfind.or.kr/streamdocs/view/sd;streamdocsId=Zkeaj9KXSmnKZNEDs6rqPIz89imtik8DFwaiHwxNtv0
발행일: 2024-03-27
서론
생성형 AI (Generative AI)는 크게 텍스트 생성, 이미지 생성, 비디오 생성으로 나누어 볼 수 있고, 텍스트 생성에서는 Chat GPT LLM (Large Language Model), 이미지 생성에는 Midjourney의 텍스트로 이미지 생성, 비디오 생성에는 Runaway Gen의 텍스트로 영상 생성 및 이미지로 영상 생성을 대표적으로 이야기 하고 있다.
현재 발전은 멀티모달까지 빠르게 변화하고 있으며, 해외 빅테크들, 특히 미국과 중국에서 2023년 하반기에 LLM뿐만 아니라 이미지, 비디오, 사운드/뮤직, 3D, 멀티모달까지 많은 기술들이 쏟아져 나오며, 기술경쟁까지 벌이는 모습을 보여주고 있다.
본 내용에서는 2021년부터 시작된 이미지 생성 DALL-E를 시작으로 2022년 말 텍스트 생성 ChatGPT, 2023년 비디오 생성 Runway Gen 그리고 이어지는 최신 멀티모달까지 국내외 생성형 AI 기술들과 서비스를 살펴보고 향후 전망에 대해서 제시한다.
더보기멀티모달: 여러 가지 다른 형태의 데이터나 정보를 결합하여 처리하고 이해하는 방식으로 여러 모달리티의 데이터를 동시에 처리하여 더 풍부한 정보를 기반으로 결정을 내리거나 예측- 텍스트와 이미지 결합: 이미지 캡셔닝 모델은 이미지를 분석한 후, 해당 이미지의 내용을 설명하는 텍스트를 생성합니다. 예를 들어, 이미지에서 '강아지가 공을 물고 있다'라는 설명을 생성할 수 있습니다.
- 오디오와 텍스트 결합: 음성 인식 시스템은 오디오 데이터를 텍스트로 변환하거나, 텍스트 데이터를 음성으로 변환합니다.
- 비디오 이해: 비디오 데이터는 이미지 시퀀스(영상), 오디오(음성), 자막(텍스트) 등의 정보를 포함할 수 있습니다. 멀티모달 모델은 이러한 모든 정보를 통합하여 비디오의 내용을 이해하거나, 특정 이벤트를 감지할 수 있습니다.
이미지 생성 기술: 2021년 1월 ~
2021년 1월 GPT보다 먼저 OpenAI에서 텍스트로 이미지를 생성하는 AI DALL-E와 이미지를 연결해 주는 CLIP을 발표하였다.
- DALL-E
- 텍스트를 통해 이미지 생성이 가능하며, 텍스트-이미지 쌍의 데이터 세트를 사용하여 텍스트 설명에서 이미지를 생성하도록 훈련된 120억 개의 파라미터를 가진 모델임
- 2022년 4월 DALL-E 2를 발표하며, 일부분을 수정하는 inpaint, 이미지 외부 영역을 확장 생성해주는 outpaint 등으로 발전
- 2023년 9월 DALL-E 3를 발표하며 챗GPT와 연동 및 MS와의 제휴로 빙 이미지 크리에이터에 사용
더보기Inpaint: 이미지 내부의 특정 부분을 수정하거나 복구하는 작업으로, 주로 결함 복구, 물체 제거, 내용 수정에 사용
Outpaint: 이미지의 외부 영역을 확장하여 새로운 부분을 생성하는 작업으로, 이미지 확장, 장면 완성, 창의적 확장 등에 사용
- 미드저니
- 2022년 7월 출시된 성공적인 이미지 생성 상용 서비스로 텍스트를 통해 이미지를 생성하며, 디스코드를 통해 사용
- StabilityAI
- 텍스트를 통한 이미지 생성 모델 스테이블 디퓨전 (Stable diffusion)을 누구나 사용할 수 있게 모델과 소스를 제공
- 스테이블 디퓨전은 이미지에 노이즈를 주고 이를 다시 역산하여 신경망에 노이즈 이미지에서 일반 이미지를 복원시키도록 학습시킨 후, 이 신경망에 노이즈만 들어 있는 이미지와 적절한 힌트를 주면 해당 힌트에 맞는 이미지를 출력하는 LDM (Latent Diffusion Model) 방식
더보기Stable diffusion: 2022년에 발표된 text-to-image 딥러닝 모델로 Latent Diffusion 모델의 일종이며, 컴퓨팅 리소스를 대폭 줄여 GPU가 장착된 개인 노트북에서 실행할 수 있는 특징 (오픈소스로 공개)
REF.
https://ffighting.net/deep-learning-paper-review/diffusion-model/diffusion-model-basic/
자세한거는 다음 내용에서 정리해보겠다... 이내용 하나만으로도 너무 방대해서...
텍스트 생성 기술: 2022년 1월 ~
챗GPT 이전에도 BERT, GPT 등 텍스트 생성 LM (Language Model)은 있었지만 인공지능을 다루지 않은 일반인들도 알게 될 정도로 유명해진 것은 LLM 챗 GPT부터이다. 챗 GPT는 2022년 11월에 첫 발표되었고, 2023년 2월에 ChatGPT Plus를 개시하였고, 2023년 3월에 GPT 5가 발표 되었다.
하지만, LLM 모델이 가지고 있는 문제점, 즉 환각 (hallucination) 또는 거짓말까지 생성될 수 있다는 이해가 필요하다.
최근 9월에는 멀티모달인 GPT-V (Vison) 및 11월에는 GPT-4 Turbo, Image/Speech Multimodal API가 발표되었고, GPTs가 발표되면서 누구나 쉽게 자신만의 맞춤형 챗GPT가 가능해졌다.
OpenAI의 챗GPT 성공 후 구글은 Bard 및 PaLM 2를 발표하였으나 GPT-4 성능에 미치지 못했으며, 메타는 LLamma 및 LLama 2를 오픈소스로 공개하는 전략을 취했다.
또한, OpenAI 직원이 퇴사 후 만든 회사 Anthropic의 Claude 2가 있으며, 일론 머스크의 xAI에서도 Grok-1를 발표하였다.
비디오 생성 기술: 2023년 2월 ~
비디오 생성은 2023년부터 본격적으로 대두되기 시작했다. 2023년 2월 Runway에서 텍스트로 영상을 만드는 Gen을 발표하고 서비스를 공개하자, 이를 통해 이용자들이 만들어 본 영상들이 SNS에 나오면서 화제가 되기 시작했고 베타 서비스를 지나 상용 서비스를 시작하였다.
Pika Labs에서도 베타서비스를 6월 시작했고 11월 말 정식 1.0을 발표하여 상용 서비스를 준비하기 시작했다. 비디오에서도 디퓨전처럼 AnimateDiff라는 오픈소스가 중국에서부터 나왔고 Runway Gen과 Pika Labs의 Pika와 더불어 많이 응용되었다.
최근 11월에는 메타도 Emu 비디오를 발표하였으며, 구글도 VideoPoet, Lumiere를 발표하였고, 이미지 생성을 공개했던 Stability AI도 Stable Video를 발표하였다.
비디오 생성 기술은 초기에 이상하게 생성되던 장면과 품질이 낮았던 것에 비해서 몇달 지나지 않아 품질이 더 좋아지고 줌인, 줌아웃, 회전 등 카메라 이동 기능이 강해졌고, 액션 등 원하는 부분을 마스킹하는 모션 브러시 기능 등으로 발전하고 있다. 2024년 2월에는 기존 영상 생성들의 품질을 크게 능가하는 Sora를 OpenAI에서 발표하였다.
미국과 중국의 기술 경쟁 및 국내 생성형 서비스 현황
중국 칭화대에서 2~4스텝만으로 빠른 이미지 생성 논문을 2023년 10월 발표한 후 이를 활용하여 펜으로 드로잉을 하자마자 실시간 이미지가 생성되는 데모가 나옴
이후 미국에서는 구글/보스턴대에서 1스텝만으로 빠른 이미지를 생성하는 논문이 11월에 발표되었고, Stability AI에서도 실시간 이미지 생성 모델 SDXL Trubo를 발표
국내에서는 아래 표처럼 LLM기반 텍스트 생성 모델로 네이버가 하이퍼클로바X, 카카오에서는 KoGPT 2.0을 준비중이며, 삼성은 11월 가우스를 발표하였으며, KT는 믿음, SKT는 에이닷X, LG는 엑시원 2.0, LG유플러스는 익시젠을 준비중이다. 대부분 국내 빅테크 기업들이 LLM에 집중하고 있는것으로 보인다. 이미지 생성 모델은 카카오 Karlo 2.0을 발표하였고, 삼성의 가우스는 AI 언어뿐만 아니라 이미지 생성을 지원한다고 발표하였다.
중국 빅테크들이 대부분 LLM뿐만 아니라 자체 이미지 생성 및 비디오 생성 모델을 확보하고 있고 심지어 오픈소스 공개까지 하는 적극적인 현황과는 좀 다른 상황으로 보인다.
AI 영화 'AI 수로부인' 이 창원국제민주영화제에 출품작으로 발표되었으며, 스토리는 챗GPT 등으로 만들고 미드저니 DALE-3로 이미지를 만들고, Gen2로 배경 영상을 생성하고 TTS (Text-to-Speech) 및 D-ID로 말소리 및 인물을 생성했다
'주간기술동향' 카테고리의 다른 글
Industry 5.0 : 스마트 팩토리 주요 기술 동향 (0) 2024.09.15 개인정보 보호 강화기술(PET)의 개념 및 사례 동 (5) 2024.09.01 C-V2X 기반 커넥티드 차량을 위한 유즈케이스 분석 및 서비스 기술 개발 동 (0) 2024.08.17 Confidential Computing 기술 동향과 전망 (0) 2024.08.15 소프트웨어 중심 자동차와 차량용 지능형 반도체 동향 (0) 2024.06.10