음성·영상·멀티모달까지 진화하는 Google의 생성형 AI 전략

2025년 6월 기준, 구글은 AI 기술을 텍스트 기반 언어 모델부터 음성 요약, 실시간 대화형 검색, 영상 생성 모델에 이르기까지 전방위로 확장하고 있습니다. 특히 Gemini 2.5 시리즈 출시와 함께, Audio Overviews 및 Veo 3의 모바일 실험 확대는 사용자 경험 중심의 멀티모달 AI 생태계 강화 전략을 보여줍니다.

이 글에서는 구글이 발표한 주요 AI 기술 업데이트를 네 가지 영역으로 나누어 정리합니다.

Gemini 2.5: 고성능·저비용 언어 모델
Audio Overviews: AI 음성 요약 검색 실험
Live AI Mode: 실시간 음성 대화형 검색
Veo 3: 고화질 텍스트-투-비디오 AI 모델

각 기능은 단순한 기술 개선을 넘어서, 검색·콘텐츠 소비·창작 방식 자체를 재정의하고 있습니다.

🧠 1. Gemini 2.5: 고성능·저비용 언어 모델

구글은 Gemini의 성능과 효율성을 대폭 개선한 Gemini 2.5 시리즈를 출시하며, 다양한 사용자 요구에 대응하는 모델 라인업을 강화했습니다.

Gemini 2.5 Pro: 고난도 언어 작업과 멀티모달 추론에 최적화된 고성능 주력 모델
Gemini 2.5 Flash: 빠른 응답 속도와 낮은 비용을 강조한 경량 모델

🔧 주요 기능

두 모델 모두 다음과 같은 고급 기능을 지원합니다.

128K 토큰 컨텍스트 길이
멀티모달 입력 (텍스트, 이미지, 오디오 등)
툴 호출 (Function Calling) 및 RAG 통합
코드 작성·이해 능력, 수학적 추론 강화

💰 비용 측면

Gemini 2.5 Flash는 특히 낮은 가격에 높은 처리 속도를 제공하여, 일상적인 작업이나 API 대량 호출에 적합합니다.
Google은 경쟁사 대비 효율 대비 비용이 뛰어난 모델을 제공하고 있으며, 이는 API 사용 비용 최적화를 고려하는 기업·개발자에게 큰 강점이 됩니다.
실제로 구글은 “Flash는 경쟁 모델보다 2배 이상 빠르고, 비용 효율이 매우 높다”고 강조했습니다.

📈 활용 기대 효과

Gemini 2.5 시리즈는 이전 세대 대비 코딩·수학·툴 사용 능력이 향상되었고,
안정적이고 지속적인 추론 능력도 강화되었습니다.
이를 통해 엔터프라이즈 솔루션, 개발자 워크플로우, 생성형 AI 제품군 등 다양한 분야에 폭넓게 적용 가능합니다.

📌 출처: Google Developers Blog (https://developers.googleblog.com/en/gemini-2-5-thinking-model-updates/)

🔊 2. Audio Overviews: AI 음성 요약 검색 실험

구글은 검색 결과를 AI 음성으로 요약해 들려주는 새로운 기능인 "Audio Overviews" 를 Search Labs를 통해 실험 중입니다.

기존 AI Overview를 확장해, 검색 결과 요약을 음성으로 제공
텍스트를 읽지 않고, AI가 생성한 자연스러운 음성으로 정보 확인 가능
“팟캐스트 스타일 요약” 은 멀티태스킹이나 화면을 보기 어려운 상황에 적합
예: “왜 파리는 손을 비빌까?”라는 질문에 AI가 관련 정보를 간단한 음성으로 안내

현재 이 기능은 미국 영어 사용자를 대상으로 Pixel 및 iOS 기기의 Google 앱에서 제공되며, 점차 확대될 예정입니다.

🔍 이 실험 기능은 Search Labs를 통해 참여할 수 있으며, 로그인 후 사용 가능한 실험 항목을 직접 선택해 체험할 수 있습니다.

📌 출처: Google Blog (https://blog.google/products/search/audio-overviews-search-labs/)

🎙️ 3. Live AI Mode: 실시간 음성 대화형 검색

Google은 검색에서 'AI Overview' 모드에 실시간 음성 대화 기능을 추가하는 실험을 진행하고 있습니다.
사용자는 텍스트를 입력하지 않고도 질문을 음성으로 말하면, AI가 음성으로 응답하는 방식입니다.

화면을 보지 않고도 음성만으로 검색 가능, 운전 중이나 이동 중에 유용
Google Assistant의 자연스러운 음성 합성 기술과 Gemini 모델의 언어 이해 능력 결합
멀티턴 대화 지원, 맥락 이어받기 가능
현재 Search Labs에서 일부 Android 및 iOS 사용자 대상 테스트 중

이 기능은 현재 Search Labs에서 실험실의 AI 모드 실험에 등록한 사용자를 대상으로 제공되며, 향후 더 많은 사용자에게 확대될 예정입니다.

📌 출처: Google Blog (https://blog.google/products/search/search-live-ai-mode/)

🎬 4. Veo 3: 고화질 텍스트-투-비디오 AI 모델

텍스트·음성뿐 아니라, 구글은 영상 생성 AI 모델에서도 빠르게 진화하고 있습니다.

Veo 3는 구글의 텍스트-투-비디오(Text-to-Video) 모델로, 최대 1080p 고화질 영상 생성이 가능
복잡한 카메라 움직임, 슬로우 모션, 시네마틱 효과까지 자연스럽게 표현
감정 표현, 물리적 상호작용, 장면 전환 등 고차원 시각 요소도 텍스트 프롬프트만으로 구현 가능
현재는 YouTube Shorts, Google 앱 등 일부 모바일 환경에서도 실험적으로 제공
향후 크리에이터 도구 및 Gemini 생태계와의 통합 가능성도 언급됨

📌 출처: Google Blog (https://blog.google/products/gemini/veo-3-expansion-mobile/)

🧩 일상 속으로 확장되는 구글의 생성형 AI

구글은 Gemini, Audio Overviews, Veo와 같은 최신 AI 기능을 통해 검색, 콘텐츠 소비, 영상 제작까지 아우르는 일상 밀착형 AI 경험을 만들어가고 있습니다. 특히 음성과 영상 등 멀티모달 환경을 자연스럽게 통합하며, 단순한 기술 발전을 넘어 사용자 경험의 새로운 표준을 제시하고 있습니다.

앞으로도 구글의 생성형 AI 기술은 더 빠르게, 더 정교하게, 그리고 더 많은 사용자에게 열려 있는 방향으로 진화할 것으로 보입니다. AI를 둘러싼 변화의 중심에서, 우리는 그 흐름을 실시간으로 체감하고 있습니다.

👉 새로운 AI 기술을 빨리 체험해보고 싶다면 Search Labs를 방문해 보세요.

구글, 텍스트부터 음성·영상까지 AI 전방위 확장 중