뉴스

LG CNS LLM 개발과 한국어 특화 AI의 현재와 미래

2025-07-12
국내AI
#LG AI#국내AI#추론모델#한국어 특화 AI#한국어 언어모델#한국형 AI 모델

한국형 언어모델, 활성화 되는 AI 모델 연구

글로벌 생성형 AI 경쟁이 심화되는 가운데, 국내에서도 한국어에 특화된 대규모 언어모델(LLM)을 개발하려는 움직임이 활발히 이어지고 있습니다.
특히 최근 LG CNS는 캐나다 AI 기업 코히어(Cohere)와 협력해 대규모 추론형 LLM을 공개하며, 본격적인 한국형 언어모델 연구와 상용화에 나섰습니다. 이외에도 NAVER, KT, 카카오 등 주요 기업들은 이미 자체 LLM을 공개한 바 있으며, 한국어 중심의 AI 모델 개발은 산업 전반으로 확산된 상태입니다. 이와 함께 국내 AI 기술력 확보에 대한 관심도 점차 높아지고 있습니다.


1. 국내기업 LG CNS, 추론형 언어모델 공개

최근 LG CNS는 캐나다 AI 기업 코히어(Cohere)와 협력해 1,110억 파라미터 규모의 추론형 LLM을 공개하며, 한국형 언어모델 개발에 본격적으로 나섰습니다. 이 모델은 한국어와 영어 모두에서 뛰어난 추론 성능을 보였으며, 고효율 설계와 온프레미스 환경 지원을 통해 민감한 데이터를 다루는 산업에도 적합하게 설계되었습니다.

항목내용
모델 규모1천 110억 파라미터, 23개 언어 지원 (한국어 포함)
특징Math500·AIME 2024 벤치마크에서 한국어·영어 모두 GPT-4o, GPT-4.1, Claude 3.7 Sonnet보다 높은 점수 기록
구동 효율모델 압축 기술로 GPU 두 장만으로 실행 가능
제공 방식온프레미스 기반 ‘소버린 AI’ 전략으로 금융·공공 데이터 보호 강화

요약
LG CNS는 Cohere의 기업용 LLM인 ‘Command’ 모델과 결합하여, 복잡한 문제를 다단계로 분석하고 논리적 해답을 생성하는 ‘추론형’ 역량을 구현했습니다. GPU 두 장으로도 구동 가능한 고효율 설계는 전력·장비 비용 부담을 완화하며, 온프레미스(자체 서버 구축 방식) 배포 옵션은 데이터 주권을 중시하는 국내 기업·기관 요구 사항을 충족합니다.


2. 국내 기업 전반의 AI 모델 개발 현황

NAVER, KT, 카카오, SKT 등은 한국어 특화, 멀티모달 기능, 경량화 등 각기 다른 전략으로 자체 LLM을 개발하고 있으며, 대부분 자사 서비스와의 통합을 중심으로 상용화를 추진하고 있습니다. 이들 모델은 한국어 특화, 실용 서비스 적용, 멀티모달 기능, 온디바이스 운영 등 다양한 특징을 통해 기술 경쟁력과 상용화 가능성을 동시에 보여주고 있습니다.

  • NAVER HyperCLOVA X : 한국어 특화 초거대 모델로, 네이버 전반의 서비스에 적용 중. 대규모 한국어 데이터 기반.
  • KT ‘믿:음 2.0’ : 한국어·영어 지원, 법률·상담 등 실용 서비스 강화. 오픈소스로 공개.
  • 카카오 ‘Kanana’ : 멀티모달 기능 탑재, 대화형 AI 지향. 맥락 이해력에 강점, 오픈소스 배포.
  • SKT ‘에이닷’ : AI 개인비서용 경량 모델. 생활 밀착형 기능에 최적화, 자체 개발.
  • LGU+ 익시오 : AI 통화 에이전트. 온디바이스 방식으로 보안 강화, 전화 업무 자동화.

3. 빠르게 성장하는 한편, 제한적인 정보

국내에서 개발된 대규모 언어모델은 대부분 우수한 성능을 강조하지만, 구체적인 수치나 기술적 설명은 거의 제공되지 않습니다. 특히 글로벌 기업들이 비교적 일관되게 공개하는 주요 항목에서 국내 모델들은 여전히 비공개 관행을 유지하고 있습니다.

항목현재 공개 수준비고
벤치마크 수치“GPT-4보다 우수” 등 요약적 표현 중심으로 성능을 소개하며, MMLU, Math500 등의 정량 점수는 대부분 비공개▲ 문제별 정답률
▲ 항목별 점수 공개
모델 규모 (파라미터 총량)일부 모델에서 총 파라미터 수만 공개되며, 구조나 레이어 구성은 생략▲ 모델 타입 설명
리더보드 참여Hugging Face, LMSYS Arena, Chatbot Arena 등 글로벌 리더보드에 등록된 사례 없음▲ 국제 리더보드 등록
▲ 외부 검증 코드 제공
학습 데이터 출처대부분 “국내외 대규모 고품질 데이터 활용” 등으로 요약되며, 데이터셋 명칭, 출처, 사용 비율 등은 구체적으로 공개되지 않음▲ 데이터셋 명시
▲ 출처
▲ 저작권·윤리 검증 기준 공개

4. 글로벌 LLM과의 비교

다음 표는 글로벌 선도 기업(OpenAI·Google·Anthropic 등)과 국내 기업의 정보 공개 관행을 요약한 내용입니다.

항목글로벌 기업 관행국내 기업 관행
성능 공개OpenAI·Google·Anthropic 등은 MMLU, Arena, MS MARCO 등 리더보드 점수를 표·그래프로 상세 공개“○○보다 우수” 등 요약 표현 중심, 구체적 점수 미공개
모델 구조계층별 파라미터, 토크나이저, 컨텍스트 창 크기, 함수 호출 방식 등 기술 보고서로 배포파라미터 총합, 특화 언어 정도만 간략 표기
데이터·안전성데이터 출처, 필터링 절차, 안전성 평가 등 상세히 공개(예: OpenAI Safety 특허, Google Responsible AI 보고서)데이터 출처를 “국내외 대형 코퍼스” 등으로만 설명
외부 검증Arena 리더보드 등에서 지속적으로 성능 검증외부 테스트나 비교 사례 부족

5. 주요 시사점 및 향후 과제

국내 LLM 생태계가 지속적으로 성장하기 위해서는 기술 성과를 외부와 효과적으로 연결하고, 산업 전반으로 확산시키는 전략이 필요합니다. 이를 위한 핵심 과제는 다음과 같습니다.

  • 정보 공개와 신뢰 확보 : MMLU, Math500 등 정량 지표와 모델 구조, 데이터 출처를 선택적으로 공개하여 외부 검증과 생태계 신뢰도를 높여야 합니다. 기업의 기술 자산 보호와 정보 투명성 간의 균형이 중요합니다.
  • 국제 리더보드 및 외부 협업 확대 : 글로벌 리더보드 참여를 통해 모델 성능을 국제적으로 검증받고, 오픈소스 커뮤니티 및 학계와의 협업을 통해 다양한 사용자 피드백을 반영할 필요가 있습니다.
  • 산업 적용 사례의 체계적 공유 : 금융, 공공, 제조 등에서의 성공 사례를 정리·공개함으로써, 후속 연구와 서비스 기획을 촉진하고 산업 전반의 실용적 확산을 유도해야 합니다.

6. 마무리

국내에서도 대형 언어모델 개발이 본격화되면서, 한국어에 특화된 AI 기술의 가능성이 점차 현실화되고 있습니다. LG CNS를 비롯한 주요 기업들이 발표한 자체 LLM은 추론 성능, 경량화, 온프레미스 활용 등에서 고유한 강점을 갖추고 있으며, 한국어 기반 서비스 확장에도 긍정적인 영향을 미치고 있습니다.

다만, 글로벌 기업과 비교했을 때 기술 정보 공개 수준이나 외부 검증 기반은 아직 제한적인 편입니다. 향후에는 성능 지표, 데이터 출처, 모델 구조 등에 대한 보다 투명한 정보 제공과 국제 생태계와의 연계가 중요해질 것으로 보입니다.

지속적인 연구와 산업적 실증이 병행된다면, 한국형 LLM은 단순한 대체 모델을 넘어 독자적 경쟁력을 갖춘 대안으로 자리매김할 수 있을 것입니다.

작성자 : AIMIZING.