全国服务咨询热线:

13867128415,18457152660

article技术文章
首页 > 技术文章 > 多模态大模型

多模态大模型

更新时间:2026-06-24      点击次数:26

                                                            多模态大模训练

 

     当你把一张照片丢给豆包,它能准确描述画面内容;在通义千问里上传一张草图,它能识别你画的是什么;Kimi 分析 PDF 里的图表时,甚至能读出表格中的数据。

事实上,大模型的多模态能力已经成为标配。从 Qwen-VL 到 GLM-4V,几乎所有主流模型都支持图像输入。

可大模型的核心——Transformer——本质上只是一个"字接字"的预测器,它只认识 Token,不认识像素。

把像素变成语言:三步架一座"桥"

核心问题只有一句话:如何让一个只懂文本的系统,理解非文本的信息?

答案分三步:

第一步:把图片切成小块

模型没有人类的全局直觉,它需要把一张完整的图像拆解成无数个小方块。

这个操作叫Patch Embedding。一张常见的 224×224 像素的图片,被切成固定大小的"小块"(通常是 16×16 像素),总共约 196 个小块。每个小块通过视觉编码器(通常是 ViT 或 CNN)转换成一个视觉向量——这个小块的"数字签名"。


多模态大模型


第二步:编上位置号

模型不仅要知道每个小块里有什么,还要知道它在图中的位置——左上还是右下?每个小块加上位置编码,作用和文本位置编码是一样的。

第三步:把视觉向量"翻译"成模型能懂的 Token

视觉向量的维度和文本向量的维度不同,无法直接输入语言模型。这里需要一个投影层,把视觉向量的维度映射到语言模型熟悉的文本向量维度上——相当于把"图片语"翻译成了"模型语"。

经过这三步,模型终于能"看到"这张图了——虽然它看到的不是像素,而是一串串数值构成的"影子"。

对齐:让视觉和语言在同一个世界里对话

问题还没结束:模型怎么知道视觉向量对应的文字是什么?

一张猫的图片经过编码变成 [0.12, -0.45, 0.78, ...],而"猫"这个字的 Token 编码是 [0.89, 0.33, -0.12, ...]——两个数字空间不相通

要让"看到"和"说到"对应起来,就需要对齐(Alignment):喂大量图文配对数据,让"这张图的向量"和"描述这张图的文字向量"在高维空间中相互靠近。

训练时同时给模型看一张夕阳照片和文字"夕阳下的海滩",模型会不断调整参数,让这两个向量之间的数学距离越来越小。这个对齐过程需要数亿对图文数据。国内公开的图文数据集也包含数亿对高质量的图文数据。


多模态大模型


两种主流架构

目前的多模态大模型分为两大流派:

流派一:独立视觉编码器 + 大模型(Qwen-VL / GLM-4V)

保留一个完整的 ViT 处理图像,再通过"连接器"把视觉信息注入语言模型。连接器可以是简单的线性映射,也可以是复杂的 Q-Former。优点是视觉能力强,缺点是参数多、推理慢。通义千问的 Qwen2.5-VL 就属这一派,它用动态分辨率方案——图片越清晰,切成的 Patch 越多,细节越丰富。

流派二:原生多模态训练方案

不保留独立视觉编码器,从零训练一个能同时理解文本、图像、音频的统一模型。文本 Token 和视觉 Token 直接交互,没有中间翻译层。优势是跨模态理解更自然,缺点是从头训练的费时费力。

国内两种路线都有玩家:DeepSeek-VL2 采用类似 Qwen-VL 的架构,在文档解析上表现优秀;智谱 GLM-4V 在中文场景的视觉识别上做过大量优化。

从图片到视频:难度指数级上升

一张图 = 约 200 个 Token。一段 1 分钟的视频,按每秒 24 帧算 = 1440 张图 = 近 30 万个 Token。

这不仅让显存扛不住,更棘手的是时序理解——"先拿起杯子,然后喝水"——模型需要理解帧与帧之间的时间关系。

主流做法是 帧采样:每秒抽几帧关键帧,同时引入时序编码让模型知道帧的先后顺序。即便如此,一段 10 分钟的视频仍需处理几千帧,计算消耗仍然巨大。


多模态大模型


用一个词描述多模态大模型的现状:"刚刚够用"

它看得懂日常照片、能识别图表、能理解视频中的动作——但遇到模糊物体、复杂场景推理、或者需要精确空间关系(比如"桌面上第三个物品是什么")时,仍然容易出错。

行业正在关注:动态分辨率(给关键区域分配更多 Patch)、原生多模态训练、多模态思维链、实时视频理解。

多模态不只是给大模型装了一双眼睛。它改变的是模型理解世界的方式——从"只读"到"可观",从"听说"到"眼见"。

但这距离真正的"视觉理解"还有距离。今天的多模态模型看到一张图,更多是在做"匹配"——把像素特征和它见过的文字描述做关联。它看一张猫图,知道这是猫,但它不懂猫为什么在笑、画面里有什么情绪。那才是人类意义上的"看懂"。

不过这条路的尽头很清晰:一个既能"看见"又能"理解"的模型。到那时,再回头看"大模型只认识文字"这句话,恐怕没人会信了。

365英国上市集团官网
地址:浙江省海宁市栋梁路73号
邮箱:www.cddgjx.com
关注我们
欢迎您关注我们的微信公众号了解更多信息:
欢迎您关注我们的微信公众号
了解更多信息