데이터 품질과 생성형 AI 기술 동향

주간기술동향 2024. 9. 22. 12:17

ITFIND 주간기술동향 2130호

본 내용의 경우 IITP의 주간기술동향에 대해서 요약한 내용으로 원문은 아래의 링크를 참고 부탁드립니다.

https://www.itfind.or.kr/streamdocs/view/sd;streamdocsId=W8XLa3T5c9i2aswHzvNAk-Jq857zfbGxS87bB4aZXjg

발행일: 2024-04-17

서론

2023년 마이크로소프트는 데이터의 품질과 성능의 연관성을 위해 실험을 하였으며, 실험 결과에서 놀랍게도 교과서로 학습한 모델이 더 많은 데이터를 사용한 거대한 모델의 성능을 뛰어 넘는다는 것을 보여주었다.

아래 그림처럼 Vicuna 모델, 7억 개의 파라메터를 가지는 Llama2, MPT, Falcon보다 1.3억 개의 파라메터를 가지는 phi-1.5 계열의 모델에 성능이 유사하거나 더 우수함을 보여주었다.

이 논문에서는 특히 동일한 모델일 phi-1.5를 사용하더라도 순수 필터링된 웹 데이터만을 사용한 phi-1.5-web-only 모델보다 정제된 양질의 데이터인 textbooks로 학습한 결과가 더 높게 나타났다. 이 결과는 학습 데이터 품질의 중요성을 일깨워 주는 결과이다.

동일 모델일 phi-1.5에 대한 웹데이터와 텍스트데이터에서의 학습에 따른 성능 비교

"영상 분야에서의 인공지능 발달 단계에 따른 데이터와 모델의 변화", 주간기술동향 2071호 에서 이미 데이터 부족을 해결하기 위한 논의가 시작되었고, 이를 극복하기 위해 self-supervised learning, data transform 등 데이터가 많은 것처럼 데이터를 가공하는 방법들이 제시되거나 가상 데이터를 합성하는 방법들에 대해 많은 연구들이 있어 왔다.

Software 2.0에서는 인간이 직접 알고리즘을 구현하는 것이 아니라 데이터의 인공신경망 학습을 통해 컴퓨터가 스스로 논리를 개발하도록 한다. Software 3.0부터는 아래 그림과 같이 데이터와 요구사항으로부터 AI가 학습하고 운영할 수 있는 자율 시스템을 제시하고 있다. Sotware 1.0에서 3.0으로 갈수록 인간의 프로그램 영역 중요성은 줄어들고, 데이터의 중요성이 부각되고 있다.

Software 1.0

- 개발자에 의해서 작성된 코드에 따라서 특정한 행동을 취하도록 만들어진 것으로, 어떤 연산을 수행할지 개발자가 고민하여 정하는 것

Software 2.0

- 사람의 개입 없이, 뉴럴넷에 의해서 연산이 정의되며, 데이터와 최적화 방법을 통해서 최적의 프로그램을 찾는 방식

이제는 양질의 데이터를 확보하는 것이 AI 주도권에서 중요하다. 텍스트, 이미지, 오디오, 비디오 등 어떠한 데이터이든 많은 데이터만 있다면 트랜스포머 기반의 AI 모델에서 학습시켜 우수한 성능을 얻을 수 있기 때문이다.

만일 외국의 기업이 국내의 교육 시장에 진입하고자 한다면 가장 큰 장벽은 AI 모델의 변화가 아닌 국내의 교육 데이터일 것이다. 제조 현장에서도 또한 AI 검사 장비를 도입하고자 할때 높은 진입 장벽중 하나는 제조 현장의 변화에 따라 AI 모델이 바뀔 수 있는가인데, 이 때에는 AI 모델에 대한 연구가 아닌 제조 현장의 변화에 따른 학습 데이터를 용이하게 획득할 수 있는가에 있을 것이다.

생성형 AI 모델과 그 응용 분야

아래의 표는 Mckinsey & Company에서 2023년 4월에 발표한 내용으로서 각 회사들에서 텍스트, 이미지, 오디오, 뮤직, 3D 비전, 비디오, 단백질 구조나 DNA 배열 등 다양한 모달들을 생성하고 있음을 보여주고 있다.

아래는 이전에 정리했던 생성형 AI 현황 및 전망에 대한 글이니 참고 부탁

https://song-tg.tistory.com/16

아래의 표는 생성AI의 응용 분야이며, 텍스트, 이미지, 비디오 생성 등의 AI를 활용해서 다양한 분야에서 사용이 되고 있다.

AI 학습을 위한 공개 데이터 현황

1. 국내 현황

높은 퀄리티의 데이터를 확보 하는 곳이 AI 기술 경쟁력을 더 빠르게 확보할 수 있게 되는 시대가 되었다.

국내에서는 이러한 데이터의 중요성에 입각하여 NIA의 AI Hub에 데이터를 모을 수 있도록 하였다. AI 허브는 2018년에 공식 서비스 제공을 시작하였으며, 모달리티들 뿐만 아니라 센서에 대한 데이터를 포함하고 있고, 관련 분야도 한국어, 영상이미지, 헬스케어, 교통물류, 재난안전환경, 농축수산, 문화관광, 스포츠, 교육, 로보틱스, 제조, 지식재산, 법률, 금융 등을 포괄하고 있다.

2. (국내) 인공지능 제조 플랫폼 KAMP

인공지능 제조 플랫폼 KAMP는 2020년에 인공지능, 데이터 기반의 스마트 제조를 위해 공장 내에 머물러 오던 스마트 공장의 데이터를 마이데이터로 전환하여 생산성 향상은 물론 데이터가 수익을 창출하도록 하는 플랫폼을 구축하였다.

KAMP에는 머신 비전, 설비 이상 예측, 최적 공정제어, 설비 최적 조건 분석, 품질 예측, 공정 최적화, 고장 분석 및 진단, 예지보전, 생산량 예측, 사용량 예측을 위한 센싱, 이미지, 오디오 등의 다양한 제조 데이터가 포함되어 있다.

3. (국외)

Hugging Face는 미국의 인공지능 스타트업으로 AI 데이터셋, AI 모델 등 머신러닝 프레임워크를 제공하는 플랫폼 중 하나이다. Hugging Face에는 다양한 언어, 주제 및 테스크를 포함한 수백 개의 데이터셋을 포함하고 있으며 현재도 지속적으로 새로운 데이터셋이 추가되고 있다

로봇 분야에서는 Open-x Embodiment라는 로봇 데이터를 함께 모아보자는 프로젝트가 진행 중이다. KAIST, 구글을 포함한 전 세계의 연구자들이 함께 로봇 데이터를 함께 모아 로봇을 위한 Foundation 모델을 만들기 위함이다. 로봇의 형태, 로봇이 다루는 객체, 로봇이 수행하는 다양한 유형의 작업 그리고 다양한 환경을 포함하고 있으며 이 데이터셋은 공개되어 있을 뿐 아니라 참여할 수 있도록 장려하고 있다

생성형 AI 모델과 데이터

튜링 머신에서 제시하는 인공지능 마지막 단계인 3세대도 인공지능 스스로 자신이 학습해야 할 데이터를 찾고 만들고 스스로 학습하여 문제를 해결하는 단계라고 한다.

현재 생성형 AI는 이러한 인공지능 3세대로 진입하도록해 주었으며, 이제 스스로 데이터를 생성하도록 하는 단계로 나아갈 차례이다. (Large Language Model) LLM을 이용한 생성형 AI로 텍스트 데이터를 생성하는 많은 연구가 있었다.

아래의 그림은 10억 개 이상의 파라메터를 갖는 LLM들을 시간 순으로 나열한 것이다. 최근 LLM 의 파인튜닝 연구에는 LLM 모델로부터 데이터를 생성시켜 이로부터 재학습한 다양한 연구가 진행되어 산업에 활용되고 있다.

파인튜닝

- 파인튜닝은 특정 작업이나 도메인에 높은 적합성을 확보하기 위해, 이미 훈련된 대규모 언어 모델에 특정 데이터셋을 사용하여 추가적인 학습을 수행하는 작업

- LLM은 방대한 데이터셋으로 사전 학습된 모델로, 언어의 일반적인 패턴, 문법, 구문 등을 이해하는 능력을 갖추고 있지만, 특정 산업이나 분야의 세부적인 요구에 맞춘 성능을 발휘하기 위해서는 추가적인 학습이 필요. 이때 파인튜닝을 통해 사전 학습된 모델을 더욱 최적화

ex)

GPT 모델 파인튜닝: GPT 모델은 사전 학습된 거대한 LLM이며, 이를 법률 관련 텍스트로 파인튜닝하면, 법률 문서를 더 정확히 생성하고 해석하는 능력이 강화.
기업 맞춤형 모델: 특정 기업의 제품 설명서를 생성하거나 고객 서비스를 처리하는 데 사용되는 모델은 파인튜닝을 통해 해당 기업의 언어 스타일과 제품 특성에 맞게 조정

이미지 생성형 AI로는 Open AI의 DALL-ED, Midjourney, Adobe Firefly, Ideogram 등이 있다. 이들은 텍스트를 입력받아 이미지를 생성하는 AI 도구들이다. 이들은 주로 일러스테이션 및 디자인 분야에 특화되어 있다.

이미지 생성에 관련된 주요 논문으로는 Stable Diffusion과 ControlNet 및 올 3월에 발표한 Stable Diffusion 3 등이 있다.

그러나, 이미지 생성형 AI는 아직 LLM처럼 데이터로 사용할 만큼의 수준에는 올라오지 못하고 있다. 예를 들어, 로봇의 조작 행동을 위한 데이터의 경우, 필요한 환경과 적합한 로봇 행동 시퀀스를 실제 촬영한 것과 같은 이미지를 만들어야 하지만 아직 이 수준의 이미지를 생성하고 있지는 못하다.

이미지 생성 모델들은 Vision-Language Model (VLM)을 사전 학습 모델로 주료 활용하며, 대표적으로는 CLIP, ALIGN, BLIP, GLEE 등이 있다.

또한, 비디오 생성형 모델로서 OpenAI에서 발표한 SORA는 영화 촬영 수준의 고퀄리티 동영상을 생성하여 큰 반향을 불러 일으키고 있다. 그러나, 이미지와 마찬가지로 이를 활용해 생성하는 비디오가 요구되는 것과 유사하나 정확하게 일치하는 것은 아니다. 예를 들어, 로봇이 물류 창고에서 물류를 이동시키고 있는 학습용 동영상이 필요할 때 이를 원하는 수준으로 끌어올리기 위해서는 더 많은 연구가 필요하다.

'주간기술동향' 카테고리의 다른 글

고속 패브릭 연결망으로 도약하는 메모리 분리 기술 동향과 실현 전 (1)	2024.10.19
오픈랜 (Open RAN)보안과 인공지능 (AI/ML) (1)	2024.10.06
ICT 기반의 군중 밀집도 감시 및 위험 행동 인식 기술 동 (2)	2024.09.15
Industry 5.0 : 스마트 팩토리 주요 기술 동향 (0)	2024.09.15
개인정보 보호 강화기술(PET)의 개념 및 사례 동 (5)	2024.09.01

ABOUT ME

공부시러요 공부시러요

ITFIND 주간기술동향 2130호