共计 3051 个字符,预计需要花费 8 分钟才能阅读完成。
截至目前(2025 年 10 月),视觉大模型已经形成了较为丰富的生态,涵盖图像分类、目标检测、图像生成、多模态理解与生成等多个方向。这些模型通常基于 Transformer 架构,并在大规模数据集上预训练,支持下游任务微调或零样本推理。
以下是我对当前主流 开源视觉大模型 的系统性梳理,包括 纯视觉模型 和多模态视觉 - 语言模型。
一、纯视觉大模型(Vision-Only Foundation Models)
1. DINOv2(Meta AI, 2023)
- 特点:自监督学习,无需标注数据,通过自蒸馏(self-distillation)训练。
- 架构:ViT(Vision Transformer)系列,包括 ViT-S/B/L/g。
- 参数量:最大版本 ViT-g 有 10 亿参数。
- 能力:
- 提取通用视觉特征
- 支持分类、检测、分割、深度估计等下游任务
- 特征具有强迁移性
- 开源:✅ 模型权重与代码(GitHub)
- 数学原理:基于 SwAV + iBOT 的自监督对比学习,使用教师 - 学生架构,教师模型通过 EMA 更新。
2. SAM(Segment Anything Model)(Meta AI, 2023)
- 特点:零样本图像分割,支持点、框、文本提示。
- 架构:
- 图像编码器:ViT-H(632M 参数)
- 提示编码器 + 掩码解码器
- 训练数据:SA-1B 数据集(11 亿张图像,10 亿级掩码)
- 开源:✅ 模型权重与代码(GitHub)
- 局限:擅长分割,但不具备高层语义理解(如“这是猫”)。
3. MAE(Masked Autoencoders)(Meta AI, 2021)
- 特点:掩码自编码器,类似 NLP 中的 BERT。
- 方法:随机掩码 75% 图像块,重建原始像素。
- 架构:ViT-B/L/H
- 开源:✅ 代码(GitHub),权重可复现
- 影响:为后续自监督视觉模型奠定基础。
4. InternImage / InternViT(OpenGVLab, 2022–2024)
- 特点:面向通用视觉任务的大模型系列。
- 代表模型:
- InternImage:基于 CNN 的大模型(类似 ConvNeXt 扩展)
- InternViT:基于 ViT 的自监督模型
- 开源:✅(GitHub)
- 应用:支持检测、分割、姿态估计等。
二、多模态视觉 - 语言大模型(Vision-Language Models)
1. LLaVA / LLaVA-NeXT / LLaVA-OneVision(2023–2024)
- 机构:威斯康星大学 & MBZUAI 等
- 架构:
- 视觉编码器:CLIP ViT-L/14 或 DINOv2
- 投影层:MLP 或 Q-Former
- 语言模型:Vicuna / LLaMA-2 / LLaMA-3
- 能力:
- 图像理解、问答、描述生成
- 支持多图、视频(OneVision)
- 开源:✅ 全套代码、权重、训练数据(GitHub)
- 版本演进:
- LLaVA-1.5:使用 MLP 投影,性能接近 GPT-4V
- LLaVA-NeXT:支持更高分辨率(336×336 → 672×672+)
- LLaVA-OneVision:统一图像与视频理解
2. Qwen-VL / Qwen2-VL(通义千问, Alibaba, 2023–2024)
- 特点:支持高分辨率、细粒度视觉理解。
- 创新:
- 动态分辨率处理:通过 RoPE 扩展支持任意长宽比
- 视觉定位:可输出边界框(如“红色汽车的位置是 [x1,y1,x2,y2]”)
- 开源:✅ 模型权重与代码(GitHub)
- 版本:
- Qwen-VL:基于 LLaMA 架构
- Qwen2-VL:更强的语言理解与 OCR 能力
3. InternVL(OpenGVLab, 2023–2024)
- 目标:对标 GPT-4V 的开源多模态模型。
- 架构:
- 视觉编码器:InternViT-6B(60 亿参数 ViT)
- 语言模型:LLaMA-2 / Qwen
- 投影层:MLP
- 训练数据:大量图文对 + 合成数据
- 性能:在多个多模态基准(如 MME、MMBench)上超越 LLaVA
- 开源:✅(GitHub)
4. Fuyu-8B(Adept AI, 2023)
- 特点 : 无需独立视觉编码器,直接将像素 patch 输入语言模型。
- 架构:简化设计,图像 patch 线性嵌入后与文本 token 拼接。
- 优势:端到端训练,支持任意分辨率。
- 开源:❌ 模型未完全开源(仅 API),但架构公开。
- 意义:启发了后续如 Idefics2、Phi-3-Vision 的设计。
5. Idefics2(Hugging Face, 2024)
- 架构:
- 视觉编码器:SigLIP(更强于 CLIP)
- 语言模型:Mistral-7B
- 投影层:交叉注意力
- 能力:支持多图像、OCR、复杂推理
- 开源:✅(Hugging Face)
- 亮点:在低资源下表现优异,适合本地部署。
6. CogVLM / CogVLM2(智谱 AI, 2023–2024)
- 特点 :强调 视觉专家模块,在 ViT 和 LLM 之间插入深度视觉理解层。
- 开源:部分开源(CogVLM-17B 权重需申请,CogVLM2 逐步开放)
- 能力:强 OCR、细粒度识别、科学图表理解
三、开源图像生成大模型(Text-to-Image)
1. Stable Diffusion 系列(Stability AI)
- SD 1.5 / SD 2.1:经典版本,广泛使用
- SDXL(2023):1024×1024 分辨率,双文本编码器
- SD3(2024):基于 Diffusion Transformer(DiT),非 U-Net
- 开源:✅ 全部权重与代码(GitHub)
2. PixArt-α / PixArt-Σ(华为 & 清华, 2023–2024)
- 架构:DiT(Diffusion Transformer)
- 优势:媲美 SDXL,但训练更高效
- 开源:✅(GitHub)
3. FLUX.1(Black Forest Labs, 2024)
- 版本:
- FLUX.1-pro:闭源
- FLUX.1-schnell:开源蒸馏版
- 能力:高质量、高一致性生成
- 开源:✅ schnell 版本(Hugging Face)
四、开源视频理解与生成模型
1. Video-LLaMA / Video-ChatGPT
- 基于 LLaVA 扩展,支持视频帧理解
- 开源:✅
2. OpenVLA(OpenVLA Project, 2024)
- 用于机器人视觉 - 语言 - 动作控制
- 开源:✅
3. ModelScope 文生视频(阿里)
- 如 Text-to-Video-MS-1.7B
- 开源:✅(ModelScope)
五、推荐选择指南
| 需求 | 推荐模型 |
|---|---|
| 通用图像理解(开源最强) | InternVL-2 或 LLaVA-OneVision |
| 高分辨率 & 视觉定位 | Qwen2-VL |
| 本地部署(7B 以下) | Idefics2-8B、Phi-3-Vision |
| 图像分割 | SAM / MobileSAM / FastSAM |
| 自监督视觉特征 | DINOv2 |
| 文生图 | SDXL、PixArt-Σ、FLUX.1-schnell |
| 视频理解 | LLaVA-OneVision、Video-LLaMA |
六、总结
当前 开源视觉大模型生态已相当成熟,在多个维度接近或达到闭源模型(如 GPT-4V、Gemini)的水平。关键趋势包括:
- 多模态统一架构:图像、视频、文本统一处理(如 LLaVA-OneVision)
- 高分辨率支持:动态 RoPE、窗口注意力等技术突破分辨率限制
- 更强视觉编码器:DINOv2、SigLIP 逐步替代 CLIP
- 轻量化与本地化:7B 以下模型(如 Phi-3-Vision)可在消费级 GPU 运行
🔗 资源汇总:
- Hugging Face Vision Models: https://huggingface.co/models?pipeline_tag=image-to-text
- OpenGVLab: https://github.com/OpenGVLab
- LLaVA 系列: https://llava-vl.github.io/
正文完

