머신러닝 엔지니어링의 혁신: MLE-STAR가 무엇인가요?

머신러닝(ML)은 이미지 분류부터 복잡한 데이터 분석에 이르기까지 다양한 분야에서 활용되고 있습니다. 하지만 머신러닝(ML) 모델을 개발하려면 데이터 전처리, 모델 설계, 하이퍼파라미터 조정 등 반복적이고 시간이 많이 드는 작업이 필요합니다.

이러한 과정을 효율화하기 위해 최근 구글 리서치는 대규모 언어 모델(LLM)의 코딩·추론 능력을 활용하여, 최적화된 ML 코드를 자동으로 생성·개선하는 차세대 머신러닝 엔지니어링 에이전트 MLE-STAR를 공개했습니다.
MLE-STAR는 웹 검색을 통해 최신 모델을 찾고, 코드 블록을 표적 개선하며, 앙상블 전략으로 성능을 높이는 혁신적인 접근을 제공합니다.

MLE-STAR 란

MLE-STAR는 LLM(대규모 언어 모델)을 활용하여 머신러닝(ML) 관련 코드를 설계하고 자동화하는 데 매우 유용한 프레임워크입니다. 이 프레임워크는 사용자가 제공한 작업 설명과 데이터셋을 기반으로, 모델 선택부터 데이터 전처리, 학습, 하이퍼파라미터 최적화까지 일련의 과정을 실행 가능한 Python 코드 형태로 설계합니다. 또한, 웹 검색을 통해 최신 연구와 최적화 기법을 찾아 코드에 반영하고, 성능에 영향을 주는 핵심 코드 블록을 반복적으로 개선함으로써 최첨단(State-of-the-Art) 수준의 ML 솔루션을 자동으로 구현할 수 있도록 지원합니다.

기존 MLE 에이전트의 한계점

초기 머신러닝 엔지니어링(MLE) 에이전트는 LLM을 활용해 머신러닝(ML) 작업을 자동화하는 잠재력을 지니고 있었지만, 구형 방법론 편향과 비효율적인 코드 수정 방식으로 인해 최신 기술을 충분히 반영하지 못하고, 특정 구성 요소를 깊이 있게 탐색하는 데 한계가 있었습니다.

구분	기존 MLE 에이전트	MLE-STAR
모델 선택 방식	LLM이 학습한 내부 지식에 의존 → 종종 구형 모델(ResNet 등) 사용	외부 검색으로 최신 연구·모델(EfficientNet, ViT 등) 확인 및 적용
탐색 전략	전체 코드 구조를 한 번에 수정 → 세부 개선 부족	성능에 영향이 큰 코드 블록을 표적화해 반복 개선
혁신성 반영	새로운 기법·라이브러리 채택이 제한적	최신 연구 결과와 기법을 빠르게 통합
성능 개선 효율	제한적 개선, 안정성 낮음	표적화 개선 + 앙상블 전략으로 지속적 성능 향상
견고성	오류나 데이터 누출 검증 기능 부족	디버깅·데이터 누출 검사·데이터 사용 검사 모듈 내장

MLE-STAR만의 새로운 접근 방식

MLE-STAR는 이러한 한계를 해결하기 위해 웹 검색 기반 모델 탐색, 표적화 코드 개선, 지능형 앙상블 전략을 통합한 ML 엔지니어링 에이전트입니다.

외부 검색을 통한 최신 모델 및 기법 채택
- 단순히 LLM 내부 지식에 의존하지 않고, 구글 검색 등 외부 정보원을 활용해 과제에 적합한 최신 모델과 최적화 기법을 찾아냅니다.
- 이렇게 수집한 최신 정보를 기반으로 초기 솔루션을 구성합니다.
표적화된 코드 블록 개선
- 초기 솔루션에서 성능에 가장 큰 영향을 주는 코드 블록을 어블레이션 스터디(ablation study) 로 식별합니다.
- 해당 블록을 반복적으로 개선하여 모델 성능을 단계적으로 향상시킵니다.
자율적인 앙상블 전략
- 여러 후보 솔루션을 단순 비교하는 대신, 서로의 장점을 결합하는 앙상블 모델을 에이전트가 직접 설계·개선합니다.
- 이를 통해 단일 모델보다 안정적이고 우수한 성능을 구현합니다.

안정성을 위한 추가 대책

추가적으로, MLE-STAR는 LLM이 생성한 코드에서 발생할 수 있는 잠재적인 문제를 해결하기 위해 다음과 같은 모듈을 포함하고 있습니다.

디버깅 에이전트(Debugging Agent): Python 스크립트 실행 중 오류가 발생하면, 이를 자동으로 수정합니다.
데이터 누출 검사기(Data Leakage Checker): 테스트 데이터가 학습 과정에 부적절하게 포함되는 문제를 방지합니다.
데이터 사용 검사기(Data Usage Checker): 제공된 모든 데이터가 솔루션에 반영되도록 검증합니다.

실제 성과

MLE-STAR는 MLE-bench Lite의 Kaggle 경쟁에서 다음과 같은 성과를 보였습니다.

메달 획득률 64% (그중 36%는 금메달) 달성
기존 최상위 모델(AIDE)의 25.8% 대비 월등한 성능
최신 모델(EfficientNet, ViT 등) 적극 활용
최소한의 인간 개입으로도 최신 모델을 쉽게 채택 가능
데이터 누출 방지 및 데이터 활용 극대화로 견고성 강화

마무리

MLE-STAR는 아직 실험적 단계에 있지만, 안정적으로 운용된다면 머신러닝(ML) 작업의 효율성과 품질을 모두 높이는 중요한 전환점이 될 수 있습니다.
최신 모델 탐색, 표적화된 코드 개선, 견고한 검증 모듈을 결합한 이 접근 방식은 복잡한 ML 프로젝트의 진입 장벽을 낮추고, 개발자와 연구자가 더 창의적이고 고부가가치 작업에 집중할 수 있도록 돕습니다.

향후 MLE-STAR가 지속적으로 발전하여, 실제 산업 현장과 연구 환경에서 폭넓게 활용될 수 있기를 기대합니다.

감사합니다.

관련 자료

구글 리서치 공식 블로그(MLE-STAR 소개 페이지) - https://research.google/blog/mle-star-a-state-of-the-art-machine-learning-engineering-agents/

구글 깃허브 페이지(MLE-STAR) - https://github.com/google/adk-samples/tree/main/python/agents/machine-learning-engineering

MLE-STAR 연구 논문 - https://arxiv.org/abs/2506.15692

구글이 개발한 머신러닝 엔지니어링 에이전트, MLE-STAR를 소개합니다.

머신러닝 엔지니어링의 혁신: MLE-STAR가 무엇인가요?

MLE-STAR 란

기존 MLE 에이전트의 한계점

MLE-STAR만의 새로운 접근 방식

안정성을 위한 추가 대책

실제 성과

마무리

관련 글

AI가 직접 컴퓨터를 조작한다? 오픈소스 프로젝트 OpenCUA 소개

구글 AI 그림책 만들기, Gemini Storybook를 소개합니다.