오픈소스 AI, LFM2-VL-450M | 초소형 비전언어모델 특징·벤치마크·로컬 실행

2025-08-21
AI 모델 사용법
#LFM2-VL-450M#LiquidAI#비전언어모델#초소형모델#로컬실행#온디바이스AI#오픈소스AI#AI모델#허깅페이스

작지만 강력한 LiquidAI의 초고속 멀티모달 AI, LFM2-VL-450M 모델

안녕하세요.
오늘은 엣지 디바이스 환경에 새로운 바람을 불러올 작고 빠른 멀티모달 AI 모델, LiquidAI의 LFM2-VL-450M에 대해 소개해 드리겠습니다. 이 모델은 텍스트와 이미지를 동시에 이해하는 능력을 갖추고 있어 활용 가치가 높습니다.


🚀 LFM2-VL-450M, 무엇이 다른가요?

LFM2-VL-450M은 LiquidAI가 공개한 멀티모달 모델 시리즈 중 하나로, 약 4억 5천만 개의 파라미터를 갖춘 경량 모델입니다. 가장 큰 특징은 작고 빠르다는 점입니다. 스마트폰이나 IoT 기기와 같은 자원이 제한된 엣지 환경에서도 지연 시간을 최소화하며 안정적인 성능을 발휘하도록 설계되었습니다.


[LFM2-VL 모델 정보]

항목내용
모델명LFM2-VL
파라미터 수450M, 1.6B (두 가지 버전 제공)
개발사LiquidAI
출시일2025년 8월 공개
컨텍스트 길이32,768 tokens
특징- 텍스트+이미지 멀티모달 처리 지원
- GPU에서 기존 모델 대비 최대 2배 빠른 추론 속도
- 경량화·실시간 응답 최적화 (휴대폰, 노트북, 웨어러블, 임베디드 기기에서도 동작 가능)
라이선스LFM Open License v1.0

✨ 주요 특징 요약

  • 압도적인 속도 : 기존 모델 대비 GPU에서 약 2배 빠른 추론 속도를 제공하면서도 정확도를 유지합니다.
  • 하이브리드 구조 : 언어 모델(LFM2)과 비전 인코더(SigLIP2)를 결합하여 텍스트와 이미지를 균형 있게 처리합니다.
  • 유연한 활용 : 최대 이미지 토큰 수와 패치 수를 조정해 속도와 품질의 균형을 선택할 수 있으며, 512×512 해상도는 원본 그대로 처리하고 더 큰 이미지는 패치 방식으로 분할 분석합니다.
  • 온디바이스 최적화 : 휴대폰, 노트북, 웨어러블, 임베디드 기기 등 저전력·소형 디바이스에서도 원활히 구동될 수 있도록 설계되었습니다.

📊 벤치마크 성능

LFM2-VL-1.6B는 16억 개의 파라미터를 가진 모델로, 중형 크기임에도 불구하고 대형 모델과 비교해도 손색없는 성능을 보여주는 모델입니다. RealWorldQA에서 65.23점을 기록하며, 20억 파라미터급 InternVL3-2B와 거의 동일한 수준을 달성한 성과를 보였습니다. 또한 InfoVQA, SEEDBench_IMG 등 다양한 지표에서도 안정적인 결과를 기록하여 특정 분야에 치우치지 않는 균형 잡힌 성능을 입증한 모델입니다. 결론적으로, LFM2-VL-1.6B는 성능과 효율을 모두 고려했을 때 중형급 모델 중에서 ‘가성비’가 뛰어난 모델입니다.

LFM2-VL-450M은 4억 5천만 개의 파라미터를 가진 초소형 모델이지만, 단순히 가볍기만 한 모델은 아닙니다. RealWorldQA, InfoVQA, OCRBench 등 주요 지표에서 동급 모델인 SmolVLM2-500M을 상회하는 성능을 기록한 모델입니다. 특히 OCRBench에서 655점을 달성하며 이미지 속 문자를 읽고 이해하는 능력이 뛰어났고, 실생활 질문 응답 능력에서도 우수한 결과를 보여주었습니다. 이러한 성능은 곧 스마트폰, 웨어러블, 임베디드 기기와 같은 제한된 환경에서도 충분히 활용할 수 있는 AI 모델임을 의미합니다.

벤치마크 지표LFM2-VL-1.6BLFM2-VL-450MInternVL3-2BInternVL3-1BSmolVLM2-2.2BSmolVLM2-500M
RealWorldQA65.2352.2965.1057.0057.5049.90
MM-IFEval37.6626.1838.4931.1419.4211.27
InfoVQA (Val)58.6846.5166.1054.9437.7524.64
OCRBench742655831798725609
BLINK44.4041.9853.1043.0042.3040.70
MathVista51.1044.7057.6046.9051.5037.50
SEEDBench_IMG71.9763.5075.0071.2071.3062.20
MMLU50.9940.1664.8049.80--

[벤치마크 지표 해설]

  • RealWorldQA : 실생활과 유사한 질문에 상식적으로 답하는 능력
  • MM-IFEval : 이미지와 텍스트를 함께 보고 지시를 따르는 능력
  • InfoVQA : 문서·차트 이미지에서 정보를 추출해 답변하는 능력
  • OCRBench : 이미지 속 글자를 인식하고 이해하는 능력
  • BLINK : 이미지 속 객체나 개체를 식별하고 지식과 연결하는 능력
  • MathVista : 수학 그래프나 수식을 보고 추론·계산하는 능력
  • SEEDBench_IMG : 이미지 분류, 추론 등 종합적인 시각 이해 능력
  • MMLU : 다양한 학문 분야에서의 언어 이해 및 지식 평가

📜 라이선스 안내

LFM2-VL 모델은 LFM Open License v1.0을 따릅니다. 이 라이선스는 Liquid AI에서 제정한 오픈소스 조건을 기반으로 하며, 사용·복제·배포·수정이 자유롭게 허용됩니다. 다만 상업적 활용에는 일부 제한이 있습니다. 연간 매출 1천만 달러 미만의 개인·기업은 자유롭게 상업적 사용이 가능합니다. 연간 매출 1천만 달러 이상인 법인은 본 라이선스 하에서 상업적 사용이 허용되지 않습니다. 비영리 기관이나 연구 목적의 활용은 매출 규모와 관계없이 제한 없이 가능합니다. 즉, LFM2-VL 모델은 개인 개발자, 연구자, 스타트업 및 중소기업이 상업적 제품이나 서비스에 활용하기 적합한 오픈소스 모델입니다.

자세한 내용은 아래 원문 라이선스를 참고하시는 것이 좋습니다.

자료 출처
👉 LFM Open License v1.0 전문 보기 : https://huggingface.co/LiquidAI/LFM2-VL-450M/blob/main/LICENSE



로컬 실행 가이드

사전 준비 안내

  • 운영체제 : Windows / macOS / Linux에서 모두 동작합니다.
  • GPU 여부 : GPU 없이 CPU만으로도 실행 가능하지만, 속도 개선을 위해 NVIDIA GPU 사용을 권장합니다.
  • 디스크/네트워크 : 최초 실행 시 모델 가중치 다운로드가 필요합니다. 네트워크 연결과 수백 MB 수준의 여유 공간을 확보합니다.
  • Python 설치 : Python 공식사이트에서 현재 운영체제에 맞는 버전을 설치해줍니다.
  • 모델 다운로드 : 로컬에서 사용할 LFM2-VL-450M 모델은 LiquidAI 허깅페이스에서 내려받을 수 있으며, 이번 예시에서는 해당 모델을 활용합니다.

실행 환경

  • 운영체제 : Windows 환경
  • 모델 버전 : LFM2-VL-450M
  • Python : 3.10.11
  • transformers : 4.55.2
  • torch : 2.6.0 + cu126
  • accelerate : 1.10.0
  • GPU : NVIDIA GeForce RTX 4060 Ti (VRAM 16 GB)

패키지 설치

# Windows PowerShell
pip install transformers accelerate
pip install torch==2.6.0 torchvision==0.21.0 --index-url https://download.pytorch.org/whl/cu126

코드 작성

# python
from transformers import AutoProcessor, AutoModelForImageTextToText
from transformers.image_utils import load_image
import torch

# 1) 모델/프로세서 로드
model_id = "Path/to/LFM2-VL-450M"  # 사용자 환경에 맞게 수정 (모델 경로)
model = AutoModelForImageTextToText.from_pretrained(
    model_id,
    device_map="auto",
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
)
processor = AutoProcessor.from_pretrained(model_id, trust_remote_code=True)

# 2) 이미지 + 프롬프트 준비
image_path = "Path/to/LFM2-VL-450M/image/test_image.png"  # 사용자 환경에 맞게 수정 (이미지 경로)
image = load_image(image_path)

conversation = [
    {
        "role": "user",
        "content": [
            {"type": "image", "image": image},
            {"type": "text", "text": "Describe this image."},  # 프롬프트 입력
        ],
    },
]

# 3) 전처리 및 생성
with torch.no_grad():
    inputs = processor.apply_chat_template(
        conversation,
        add_generation_prompt=True,
        return_tensors="pt",
        return_dict=True,
        tokenize=True,
    ).to(model.device)

    outputs = model.generate(
        **inputs,
        max_new_tokens=64,
        do_sample=False,
        temperature=0.0,
    )

# 4) 디코딩
gen_only = outputs[:, inputs["input_ids"].shape[1]:]
text = processor.batch_decode(gen_only, skip_special_tokens=True)[0].strip()

# 5) 콘솔 출력
print(text)

실행

위 과정을 통해 LFM2-VL-450M 모델을 직접 실행한 결과, 약 2.2GB의 VRAM만을 사용하여 매우 가볍게 동작하였습니다. 이미지 입력부터 텍스트 설명 생성까지 평균 2~3초 정도가 소요되어 응답 속도 역시 빠른 편이었습니다. 이러한 특성 덕분에 노트북, 휴대폰, 웨어러블 기기와 같은 자원이 제한된 환경에서도 실시간 활용 가능성이 높습니다. 특히 클라우드 연동 없이 온디바이스에서 직접 실행할 수 있다는 점은 개인정보 보호나 오프라인 환경에서도 안정적으로 사용할 수 있다는 의미를 가집니다.

또한 한국어 출력 기능도 확인할 수 있었으나, 정확도 측면에서는 아직 개선이 필요합니다. 예를 들어 도로 표지판 이미지를 입력했을 때 영어 프롬프트에서는 표지판의 색상, 모양, 글자, 숫자까지 세부적으로 비교적 정확히 설명했지만, 한국어 프롬프트에서는 반복적이거나 불필요한 표현이 나타났습니다. 이를 통해 모델이 한국어를 일정 부분 지원한다는 사실은 확인할 수 있었으나, 실제 한국어 서비스에 적용하기 위해서는 후처리 또는 추가적인 개선 작업이 필요합니다.



✨ 마무리하며

LFM2-VL-450M은 최근 주목받는 AI 흐름을 잘 보여주는 모델입니다. 스마트폰과 같은 온디바이스 환경에서도 실행할 수 있도록 설계되었으며, 작고 빠르면서도 유연하고 강력한 성능을 갖추고 있어 다양한 현실 세계 문제에 실용적으로 활용할 수 있습니다. 허깅페이스 라이브러리를 통해 누구나 손쉽게 실행해 볼 수 있으니, 관심 있는 개발자라면 직접 그 성능을 확인해 보시는 것도 좋습니다.
앞으로 엣지 AI 분야에서 이 모델이 보여줄 가능성이 더욱 기대됩니다.

읽어주셔서 감사합니다. 😊


[참고 링크]

👉 Python 공식사이트 : https://www.python.org/downloads/
👉 Ollama 공식사이트 : https://ollama.com/download
👉 LiquidAI 허깅페이스 : https://huggingface.co/LiquidAI/LFM2-VL-450M

작성자 : AIMIZING.