开源视觉大模型2025入坑提纲(Open-Source Vision Foundation Models)

145次阅读
没有评论

共计 3051 个字符,预计需要花费 8 分钟才能阅读完成。

截至目前(2025 年 10 月),视觉大模型已经形成了较为丰富的生态,涵盖图像分类、目标检测、图像生成、多模态理解与生成等多个方向。这些模型通常基于 Transformer 架构,并在大规模数据集上预训练,支持下游任务微调或零样本推理。

以下是我对当前主流 开源视觉大模型 的系统性梳理,包括 纯视觉模型 多模态视觉 - 语言模型


一、纯视觉大模型(Vision-Only Foundation Models)

1. DINOv2(Meta AI, 2023)

  • 特点:自监督学习,无需标注数据,通过自蒸馏(self-distillation)训练。
  • 架构:ViT(Vision Transformer)系列,包括 ViT-S/B/L/g。
  • 参数量:最大版本 ViT-g 有 10 亿参数。
  • 能力
  • 提取通用视觉特征
  • 支持分类、检测、分割、深度估计等下游任务
  • 特征具有强迁移性
  • 开源:✅ 模型权重与代码(GitHub
  • 数学原理:基于 SwAV + iBOT 的自监督对比学习,使用教师 - 学生架构,教师模型通过 EMA 更新。

2. SAM(Segment Anything Model)(Meta AI, 2023)

  • 特点:零样本图像分割,支持点、框、文本提示。
  • 架构
  • 图像编码器:ViT-H(632M 参数)
  • 提示编码器 + 掩码解码器
  • 训练数据:SA-1B 数据集(11 亿张图像,10 亿级掩码)
  • 开源:✅ 模型权重与代码(GitHub
  • 局限:擅长分割,但不具备高层语义理解(如“这是猫”)。

3. MAE(Masked Autoencoders)(Meta AI, 2021)

  • 特点:掩码自编码器,类似 NLP 中的 BERT。
  • 方法:随机掩码 75% 图像块,重建原始像素。
  • 架构:ViT-B/L/H
  • 开源:✅ 代码(GitHub),权重可复现
  • 影响:为后续自监督视觉模型奠定基础。

4. InternImage / InternViT(OpenGVLab, 2022–2024)

  • 特点:面向通用视觉任务的大模型系列。
  • 代表模型
  • InternImage:基于 CNN 的大模型(类似 ConvNeXt 扩展)
  • InternViT:基于 ViT 的自监督模型
  • 开源:✅(GitHub
  • 应用:支持检测、分割、姿态估计等。

二、多模态视觉 - 语言大模型(Vision-Language Models)

1. LLaVA / LLaVA-NeXT / LLaVA-OneVision(2023–2024)

  • 机构:威斯康星大学 & MBZUAI 等
  • 架构
  • 视觉编码器:CLIP ViT-L/14 或 DINOv2
  • 投影层:MLP 或 Q-Former
  • 语言模型:Vicuna / LLaMA-2 / LLaMA-3
  • 能力
  • 图像理解、问答、描述生成
  • 支持多图、视频(OneVision)
  • 开源:✅ 全套代码、权重、训练数据(GitHub
  • 版本演进
  • LLaVA-1.5:使用 MLP 投影,性能接近 GPT-4V
  • LLaVA-NeXT:支持更高分辨率(336×336 → 672×672+)
  • LLaVA-OneVision:统一图像与视频理解

2. Qwen-VL / Qwen2-VL(通义千问, Alibaba, 2023–2024)

  • 特点:支持高分辨率、细粒度视觉理解。
  • 创新
  • 动态分辨率处理:通过 RoPE 扩展支持任意长宽比
  • 视觉定位:可输出边界框(如“红色汽车的位置是 [x1,y1,x2,y2]”)
  • 开源:✅ 模型权重与代码(GitHub
  • 版本
  • Qwen-VL:基于 LLaMA 架构
  • Qwen2-VL:更强的语言理解与 OCR 能力

3. InternVL(OpenGVLab, 2023–2024)

  • 目标:对标 GPT-4V 的开源多模态模型。
  • 架构
  • 视觉编码器:InternViT-6B(60 亿参数 ViT)
  • 语言模型:LLaMA-2 / Qwen
  • 投影层:MLP
  • 训练数据:大量图文对 + 合成数据
  • 性能:在多个多模态基准(如 MME、MMBench)上超越 LLaVA
  • 开源:✅(GitHub

4. Fuyu-8B(Adept AI, 2023)

  • 特点 无需独立视觉编码器,直接将像素 patch 输入语言模型。
  • 架构:简化设计,图像 patch 线性嵌入后与文本 token 拼接。
  • 优势:端到端训练,支持任意分辨率。
  • 开源:❌ 模型未完全开源(仅 API),但架构公开。
  • 意义:启发了后续如 Idefics2Phi-3-Vision 的设计。

5. Idefics2(Hugging Face, 2024)

  • 架构
  • 视觉编码器:SigLIP(更强于 CLIP)
  • 语言模型:Mistral-7B
  • 投影层:交叉注意力
  • 能力:支持多图像、OCR、复杂推理
  • 开源:✅(Hugging Face
  • 亮点:在低资源下表现优异,适合本地部署。

6. CogVLM / CogVLM2(智谱 AI, 2023–2024)

  • 特点 :强调 视觉专家模块,在 ViT 和 LLM 之间插入深度视觉理解层。
  • 开源:部分开源(CogVLM-17B 权重需申请,CogVLM2 逐步开放)
  • 能力:强 OCR、细粒度识别、科学图表理解

三、开源图像生成大模型(Text-to-Image)

1. Stable Diffusion 系列(Stability AI)

  • SD 1.5 / SD 2.1:经典版本,广泛使用
  • SDXL(2023):1024×1024 分辨率,双文本编码器
  • SD3(2024):基于 Diffusion Transformer(DiT),非 U-Net
  • 开源:✅ 全部权重与代码(GitHub

2. PixArt-α / PixArt-Σ(华为 & 清华, 2023–2024)

  • 架构:DiT(Diffusion Transformer)
  • 优势:媲美 SDXL,但训练更高效
  • 开源:✅(GitHub

3. FLUX.1(Black Forest Labs, 2024)

  • 版本
  • FLUX.1-pro:闭源
  • FLUX.1-schnell:开源蒸馏版
  • 能力:高质量、高一致性生成
  • 开源:✅ schnell 版本(Hugging Face

四、开源视频理解与生成模型

1. Video-LLaMA / Video-ChatGPT

  • 基于 LLaVA 扩展,支持视频帧理解
  • 开源:✅

2. OpenVLA(OpenVLA Project, 2024)

  • 用于机器人视觉 - 语言 - 动作控制
  • 开源:✅

3. ModelScope 文生视频(阿里)

  • Text-to-Video-MS-1.7B
  • 开源:✅(ModelScope

五、推荐选择指南

需求推荐模型
通用图像理解(开源最强)InternVL-2LLaVA-OneVision
高分辨率 & 视觉定位Qwen2-VL
本地部署(7B 以下)Idefics2-8BPhi-3-Vision
图像分割SAM / MobileSAM / FastSAM
自监督视觉特征DINOv2
文生图SDXLPixArt-ΣFLUX.1-schnell
视频理解LLaVA-OneVisionVideo-LLaMA

六、总结

当前 开源视觉大模型生态已相当成熟,在多个维度接近或达到闭源模型(如 GPT-4V、Gemini)的水平。关键趋势包括:

  1. 多模态统一架构:图像、视频、文本统一处理(如 LLaVA-OneVision)
  2. 高分辨率支持:动态 RoPE、窗口注意力等技术突破分辨率限制
  3. 更强视觉编码器:DINOv2、SigLIP 逐步替代 CLIP
  4. 轻量化与本地化:7B 以下模型(如 Phi-3-Vision)可在消费级 GPU 运行

🔗 资源汇总

  • Hugging Face Vision Models: https://huggingface.co/models?pipeline_tag=image-to-text
  • OpenGVLab: https://github.com/OpenGVLab
  • LLaVA 系列: https://llava-vl.github.io/
正文完
 0
一诺
版权声明:本站原创文章,由 一诺 于2025-10-05发表,共计3051字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
评论(没有评论)
验证码