多模态模型分析-面壁MiniCPMV
概述
MiniCPM 是面壁与清华大学自然语言处理实验室共同开源的系列端侧大语言模型,主体语言模型 MiniCPM-1B
仅有 12亿(1.2B)的非词嵌入参数量。
模型框架介绍
如下图所示,是MiniCPMV模型的多模态推理流程图。如果有图片输入,会在文本字段中添加 (<image>./</image>)
占位符号,表示需要基于该图片特征进行内容的生成,当然也可以支持多个图片的输入,简单示例如下:
- 单张图片
1 | (<image>./</image>)What is this picture? |
- 多张图片
1 | (<image>./</image>)(<image>./</image>)What is those pictures? |
那么从图片的像素特征空间转到语言模型特征空间后,其等效的文本token长度固定为64
,多张图片的token长度则对应为64的倍数。