기사 메일전송
연구보고서 | AI 성장 둔화 신호와 LLM 전략의 한계: GPT-5 사례 분석(3)
  • 최득진 AI 리서치 컨설턴트
  • 등록 2025-08-20 18:07:10
  • 수정 2025-08-27 13:12:12
기사수정

AI 성장 둔화 신호와 LLM 전략의 한계: GPT-5 사례 분석(3)

AI 리서치 컨설턴트 최득진 박사

[법학박사 | 사회분석 전문가 | 교육사회 전문가 | 평생교육사]


4. 데이터 병목 현상: 고품질 훈련 데이터의 부족



4.1 LLM을 위한 고품질 데이터의 특성


신뢰성, 관련성, 정확성은 고품질 LLM 훈련 데이터셋의 가장 중요한 특성으로 간주됩니다.16 신뢰할 수 있는 데이터는 LLM을 오도하는 것을 방지하고, 관련성은 도메인 이해도를 높이며, 정확성은 올바르고 신뢰할 수 있는 정보를 보장하여 일반화 능력에 직접적인 영향을 미칩니다.16)

규정 준수(규제 요구 사항 충족, 개인 정보 보호, 저작권 침해 방지), 접근성(다른 개발팀의 용이한 사용), 개인 정보 보호(사용자 개인 정보 노출 방지), 문서화(도메인 및 의도된 사용에 대한 명확성)와 같은 중요한 보조 특성 또한 필수적입니다.16)

"대규모 데이터"는 강력한 학습과 광범위한 지식에 중요하지만, 일부 전문가들은 Phi-1 및 Phi-2 모델과 같이 더 작고 고품질의 데이터셋으로 높은 정확도를 달성한 사례를 인용하며 데이터의 양보다 품질을 우선시합니다.16) 다양성은 언어 스타일과 패턴 전반에 걸친 언어 이해도를 높이고 과적합 및 편향을 방지하는 데 중요합니다.16) 저품질 문서(예: 반복적, 정보 부족, 오해의 소지가 있는) 및 유해 데이터의 부재는 정확하고 안전한 출력에 필수적이지만, 일부는 실제 입력에 대한 견고성을 높이거나 모델이 부적절한 콘텐츠를 인식하도록 가르치기 위해 일부를 유지하는 것을 주장하기도 합니다.16) 중복 데이터의 부재는 소수 의견이지만, 컴퓨팅 효율성과 과적합 방지에 중요합니다.16)

"데이터 품질"의 다차원적이고 주관적인 특성은 중요한 문제임을 보여줍니다. 고품질 데이터의 특성에 대한 광범위한 목록16)은 단순한 볼륨을 훨씬 뛰어넘습니다. 이는 신뢰성, 관련성, 정확성을 포괄할 뿐만 아니라 규정 준수, 개인 정보 보호, 문서화, 심지어 견고성을 위해 일부 "저품질" 또는 "유해한" 데이터를 유지하는 것에 대한 미묘한 논쟁까지 포함합니다. 이는 "품질"이 단순하고 쉽게 정량화할 수 있는 지표가 아니라 복잡하고 다차원적인 개념이며, 종종 주관적인 상충 관계를 수반한다는 것을 보여줍니다. 데이터 전처리 및 품질 평가를 위한 표준화된 방법의 부족16)은 이러한 복잡성을 더욱 강조합니다. 이는 데이터 병목 현상이 단순히 양의 문제가 아니라 근본적으로 고도로 미묘한 형태의 "품질"을 정의하고, 달성하고, 유지하는 문제임을 의미합니다. 이는 연구 개발의 초점을 단순히 "더 많은 데이터"를 확보하는 것에서 정교한 데이터 엔지니어링, 자동화된 품질 관리, 그리고 잠재적으로 새로운 데이터 유틸리티 이론 프레임워크로 전환해야 함을 시사합니다.


4.2 부족의 원인 및 큐레이션 과제


현대 LLM 사전 훈련 데이터셋의 엄청난 규모(예: Meta의 Llama 3.1은 15.6조 토큰, Alibaba Cloud의 Qwen 2는 7-12조 토큰)는 수동 평가 및 품질 보증을 사실상 불가능하게 만듭니다.19) 이는 AI 엔지니어링 팀이 휴리스틱 및 필터링 기술에 의존하게 만들며, 이는 의도치 않게 유사 중복 및 벤치마크 데이터 오염과 같은 문제로 이어질 수 있습니다.19)

고품질 데이터에 대한 이론적인 필요성은 무한하지만, 실제 가용성은 예산, 엄격한 개인 정보 보호 법률 및 윤리적 고려 사항에 의해 제한됩니다.19) 개발자들은 윤리적이고 법적으로 허용되는 훈련 정보에 대해 어려운 결정을 내려야 합니다. 데이터 품질에서 타협하면 의도치 않게 편향이나 관련 없는 콘텐츠가 LLM의 핵심에 도입되어 잘못된 응답이나 환각적인 출력을 유발할 수 있습니다.19) 주요 출처로 자주 사용되는 공개 데이터는 대표성이 없거나 윤리적으로 건전하지 않을 수 있습니다.19)

고품질 데이터의 전 세계적인 가용성은 고르지 않으며, 엄격한 데이터 개인 정보 보호 법률이 있거나 오픈 소스 정보에 대한 접근이 제한된 지역은 추가적인 어려움에 직면합니다.19) 정확하고 완전하더라도 다양한 정보의 부족은 LLM의 유용성을 심각하게 저해할 수 있습니다.19) 훈련에 사용되는 비정형 데이터(예: 비디오 스크립트, 책, 블로그 기사)의 품질을 준비하고 유지하는 것은 노동 집약적입니다.19) 데이터의 유용성에 필수적인 일관되고 정확한 레이블링은 방대한 데이터 양을 고려할 때 시간이 많이 걸리고 수동으로 수행할 경우 오류 및 편향에 취약합니다.19)

다양한 시스템에 분산된 데이터는 효과적인 LLM 성능에 필요한 통합된 시야를 방해하여 훈련 비용을 증가시키고 협업을 저해합니다.19) 불완전하거나 일관성 없는 메타데이터는 데이터 검색 및 처리를 더욱 방해합니다.19) 많은 선도적인 LLM은 데이터셋 구성 및 훈련 절차에 대한 문서가 불충분하거나 부분적이어서 실무자들이 고품질 데이터셋이 무엇인지에 대한 이해가 제한적입니다.16)

이러한 상황은 독점 데이터가 경쟁 우위를 제공하는 "AI 해자" 역할을 한다는 점을 시사합니다. 필요한 데이터의 엄청난 규모(수조 토큰)는 수동 큐레이션을 불가능하게 만듭니다.19) 이는 불완전한 휴리스틱에 의존하게 만들고, 오염과 같은 문제로 이어집니다. 결정적으로, "많은 선도적인 LLM은 데이터셋 구성에 대한 문서가 부족합니다".16) 이는 진정으로 고품질 데이터를 획득하고 큐레이션하는 방법이 종종 독점적인 "레시피"임을 암시합니다. 이는 오픈 소스 이니셔티브에 상당한 경쟁 장벽을 만듭니다. 오픈 소스 이니셔티브는 수백만 명의 사용자가 생성하는 귀중한 상호 작용 데이터로부터의 "이러한 중요한 피드백 루프가 부족합니다".20) 이는 최고 수준 LLM의 "비밀 소스"가 단순히 아키텍처나 컴퓨팅이 아니라 방대한 양의 독점적이고 고품질이며 지속적으로 업데이트되는 데이터에 대한 고유한 접근 및 처리 능력에 있음을 시사합니다. 데이터 병목 현상은 AI 권력의 집중을 소수의 자원 부유한 기업에 악화시킵니다. 이는 AI 환경의 다양성을 감소시키고 광범위한 혁신을 둔화시킬 수 있습니다. 소규모 기업들은 비교 가능한 데이터 자원에 접근하는 데 어려움을 겪기 때문입니다. 또한 데이터 파트너십, 합성 데이터 생성 및 고급 데이터 거버넌스의 전략적 중요성을 강조합니다.

또한, 규제 및 윤리적 환경은 사실상 데이터 제약으로 작용합니다. 기술적 문제 외에도 "개인 정보 보호 법률" 및 "윤리적 문제"19)는 데이터 부족의 원인으로 명시적으로 언급됩니다. 편향을 피하고 규정 준수를 보장해야 한다는 필요성 19은 단순히 "더 많은" 데이터를 수집하는 것만으로는 불충분하다는 것을 의미합니다. 데이터는 깨끗하고, 대표적이며, 윤리적으로 확보되어야 합니다. 이는 데이터 큐레이션에 상당한 복잡성, 비용 및 법적 위험을 추가하여 사용 가능한 데이터 풀을 효과적으로 축소시킵니다. 데이터를 풍부하게 하면서 규정 준수를 유지하는 어려움19)은 이를 더욱 강조합니다. GDPR과 같은 규제 프레임워크와 증가하는 윤리적 요구는 훈련 데이터의 가용성과 유용성에 점점 더 큰 영향을 미칠 것입니다. 이는 AI 개발자들이 데이터 익명화, 개인 정보 보호 AI 기술 및 강력한 윤리적 검토 프로세스에 더 많이 투자하도록 강제할 것입니다. 이는 자원 집약적이며 데이터 획득 및 모델 훈련 속도를 늦출 수 있습니다. 이는 "둔화"가 단순히 기술적인 것이 아니라 AI를 둘러싼 사회 법적 환경의 성숙의 결과임을 강조합니다.


4.3 데이터 중복 문제


데이터 중복은 대규모 웹 크롤링, 오픈 저장소 및 공개 코퍼스에서 주로 수집되는 현대 LLM 사전 훈련 데이터셋의 체계적인 문제입니다.17) 사소한 변형(형식, 헤더), 미러링된 페이지, 재게시된 콘텐츠, 다양한 플랫폼에 걸친 중복된 코드베이스로 인해 중복이 흔하게 발생합니다.17)

중복은 여러 가지 비효율성과 위험을 초래합니다. 반복되는 예시는 새로운 정보를 제공하지 않으면서 동일한 컴퓨팅 자원을 소비하여 귀중한 훈련 시간과 에너지를 낭비합니다.17) 반복되는 구문이나 콘텐츠에 노출된 LLM은 이러한 패턴에 과도하게 의존하여 새로운 데이터에 대한 일반화 능력을 감소시킬 수 있습니다.17) 높은 중복은 모델이 특정 시퀀스를 암기할 위험을 증가시켜 안전, 개인 정보 보호 및 지적 재산(IP) 문제를 야기합니다.17) 훈련 및 검증/테스트 세트에 중복이 존재하면 벤치마크 점수가 인위적으로 부풀려져 모델 품질에 대한 오해를 불러일으키고 실제 진행 상황을 정확하게 평가하는 데 방해가 됩니다.17) 이러한 "데이터셋 간 코드 중복"은 LLM 평가의 무결성을 손상시키는 것으로 나타났습니다.21)

중복 제거를 위한 세 가지 주요 전략이 있습니다. 첫째, "정확 일치(Exact Matching)"는 암호화 해싱을 사용하여 동일한 문서를 찾습니다. 빠르고 정확하지만 사소한 형식 차이가 있는 유사 중복을 놓칩니다.17 둘째, "의미 일치(Semantic Matching)"는 벡터 임베딩 모델을 활용하여 개념적으로 유사한 콘텐츠를 찾습니다. 매우 정확하지만 대규모에서는 컴퓨팅 비용이 많이 듭니다.17) 셋째, "근사 일치(Approximate Matching)"는 MinHash LSH 및 Jaccard 유사도와 같은 확률적 알고리즘을 사용하여 유사 중복을 찾으며, 정확성과 컴퓨팅 효율성의 균형을 맞추어 수조 토큰 데이터셋에 적합합니다.17)

LLM 벤치마킹의 무결성 위기는 데이터 중복으로 인한 "평가 누출"17)은 종종 간과되는 중요한 문제입니다. 테스트 샘플이 훈련 데이터에 의도치 않게 포함되면, 보고된 성능 지표가 인위적으로 부풀려져 모델의 진정한 일반화 능력에 대한 잘못된 인상을 줍니다. 이는 LLM 벤치마킹의 과학적 엄격성과 신뢰성을 훼손하여 진정한 발전을 "암기" 또는 "과적합"과 구별하기 어렵게 만듭니다. "LLM 평가의 무결성을 손상시킨다"21)는 직접적인 인과 관계를 보여줍니다. 데이터 중복, 특히 "데이터셋 간 코드 중복"21)의 만연한 문제는 벤치마크에서 보고된 "성장"이 보이는 것보다 덜 견고할 수 있음을 의미합니다. 이는 현재 벤치마킹 관행에 대한 재평가, 엄격한 중복 제거에 대한 더 큰 강조, 그리고 데이터 누출에 더 강한 새로운 평가 방법의 필요성을 야기합니다. 이를 해결하지 않으면 업계는 부풀려진 성능 주장의 토대 위에 구축될 위험이 있으며, 이는 자원 오용과 잘못된 전략적 결정으로 이어질 수 있습니다.

다음 표는 고품질 LLM 훈련 데이터셋의 주요 특성을 요약합니다.


표 3: 고품질 LLM 훈련 데이터셋의 주요 특성


특성

중요성/근거

과제/미묘한 차이

출처

신뢰성

LLM이 잘못된 출력을 생성하는 것을 방지, 데이터 검증 비용 절감, 특정 도메인(예: 네트워크 보안)에서 중요

-

16

관련성

도메인별 지식 이해도 향상, 다운스트림 작업 성능 개선, 비관련 데이터 학습 방지, 훈련 효율성 증가

-

16

정확성

훈련 데이터로부터 도출된 결정, 분석, 결론의 정확성 및 신뢰성 보장, LLM의 일반화 능력 및 성능에 큰 영향

낮은 레이블링 품질 또는 노이즈 데이터로 인한 잘못된 학습/성능 저하

16

규정 준수

LLM이 규제 요구 사항을 충족하도록 보장, 데이터 수집 프로세스의 합법성 우선, 저작권 침해 및 사용자 개인 정보 침해 방지

-

16

접근성

쉽게 접근하고 사용할 수 있는 훈련 데이터셋은 다른 개발팀의 LLM 개발 용이성 및 효율성 증진

-

16

개인 정보 보호

사용자 개인 정보를 노출할 수 있는 대화 생성 방지, 모델 출력에서 개인 정보의 기밀성 보장

-

16

문서화

데이터의 도메인 및 의도된 사용에 대한 명확성 제공, 개발자의 데이터 오용 방지

-

16

대규모 데이터

다양하고 광범위한 훈련 샘플 제공, 강력한 학습 및 성능 개선 촉진, 과적합 위험 감소

일부 전문가들은 양보다 품질을 우선시 (예: Phi-1, Phi-2)

16

다양성

다양한 언어 스타일 및 패턴 이해 능력 향상, 과적합 및 특정 주제에 대한 편향 방지

-

16

지식 콘텐츠

도메인별 문제 해결에 더 나은 도움, LLM이 더 정확한 응답 제공 가능

-

16

다양한 출처

다양한 형식, 스타일, 문법 처리 능력 향상, LLM의 견고성 증진, 다양한 다운스트림 작업에 필수 정보 제공

-

16

저품질 문서 부재

LLM이 고품질 데이터로 훈련되도록 보장, 정확하고 효과적인 출력 유도, 훈련 효율성 향상

일부는 실제 사용자 입력에 대한 견고성을 위해 일부 저품질 텍스트 유지를 제안

16

유해 데이터 부재

모델이 유해하거나 불쾌한 콘텐츠를 생성할 위험 완화, 더 안전하고 긍정적인 사용자 경험 촉진

일부는 유해 데이터의 일부를 유지하여 LLM이 독성을 인식하도록 할 것을 제안

16

중복 데이터 부재

LLM 훈련 시간 및 컴퓨팅 비용 절감, 모델 과적합 위험 감소, 일반화 능력 향상

대다수 응답자는 중요하게 여기지 않음, 일부는 잠재적 정보 손실 및 모델 견고성 기여 가능성 언급

16

♦이 표는 "고품질 데이터"라는 복잡한 개념을 해체하고 그 부족이 왜 중요한 병목 현상인지 보여주는 데 매우 중요합니다. 각 특성, 그 근거, 그리고 관련 과제를 자세히 설명함으로써, "데이터"에 대한 피상적인 이해를 넘어 큐레이션의 어려움에 대한 미묘한 이해를 제공합니다. 이는 데이터 병목 현상이 기술적, 윤리적, 실제적 측면을 모두 포함하는 다면적인 문제이며, 이 모든 것이 LLM 성장의 둔화에 기여한다는 주장을 직접적으로 뒷받침합니다. 또한 합성 데이터 및 고급 데이터 관리와 같은 솔루션에 대한 논의의 토대를 마련합니다. 표의 '출처'의 숫자는 참고자료의 번호를 의미합니다.


[참고자료]는 마지막편 "AI 성장 둔화 신호와 LLM 전략의 한계: GPT-5 사례 분석(4)"을 참고하십시오.

0
유니세프
국민신문고고
모바일 버전 바로가기