CogVLM2 – 智谱AI推出的新一代多模态大模型

0 3

CogVLM2是什么

CogVLM2是由智谱AI推出的新一代多模态大模型，在视觉和语言理解方面实现了显著的性能提升，支持高达8K的文本长度和1344*1344分辨率的图像输入，具备强大的文档图像理解能力。该模型采用50亿参数的视觉编码器与70亿参数的视觉专家模块，通过深度融合策略，优化了视觉与语言模态的交互，确保了在增强视觉理解的同时，语言处理能力也得到保持。CogVLM2的开源版本支持中英文双语，模型大小为19亿参数，但实际推理时激活的参数量约为120亿，展现了在多模态任务中的高效性能。

CogVLM2的改进点

CogVLM2模型相比前代的改进点主要包括以下几个方面：

性能提升：在OCRbench和TextVQA等多个关键基准测试上，CogVLM2的性能有了显著提升，例如在OCRbench上性能提升了32%，在TextVQA上性能提升了21.9%。
文档图像理解：CogVLM2增强了对文档图像的理解和问答能力，特别是在DocVQA基准测试中表现出色。
支持高分辨率图像：模型支持高达1344*1344像素的图像分辨率，能够处理更高清晰度的图像。
支持长文本：CogVLM2支持长达8K的文本输入，这使得模型能够处理更长的文档和更复杂的语言任务。
双语支持：CogVLM2提供了支持中英文双语的开源模型版本，增强了模型的多语言能力。

CogVLM2的模型信息

CogVLM2开源了两款以Meta-Llama-3-8B-Instruct为语言基座模型的CogVLM2，分别是cogvlm2-llama3-chat-19B和cogvlm2-llama3-chinese-chat-19B，感兴趣的用户可以前往GitHub、Hugging Face或魔搭社区进行下载或在线体验。

模型名称	cogvlm2-llama3-chat-19B	cogvlm2-llama3-chinese-chat-19B
基座模型	Meta-Llama-3-8B-Instruct	Meta-Llama-3-8B-Instruct
语言	英文	中文、英文
模型大小	19B	19B
任务	图像理解，对话模型	图像理解，对话模型
模型链接	🤗 Huggingface 🤖 ModelScope 💫 始智AI 🐙GitHub	🤗 Huggingface 🤖 ModelScope 💫 始智AI
体验链接	📙 官方页面	📙 官方页面 🤖 ModelScope
Int4模型	暂未推出	暂未推出
文本长度	8K	8K
图片分辨率	1344 * 1344	1344 * 1344

CogVLM2的模型架构

CogVLM2的模型架构在继承上一代模型的基础上进行了优化和创新，具体特点如下：

视觉编码器：CogVLM2采用了一个拥有50亿参数的视觉编码器，负责对输入图像进行特征提取和编码。
视觉专家模块：在大语言模型中整合了一个70亿参数的视觉专家模块，这一模块通过独特的参数设置，精细地建模了视觉与语言序列的交互。
深度融合策略：CogVLM2采用了深度融合策略，使得视觉模态与语言模态能够更加紧密地结合，从而增强了模型在视觉理解能力的同时，保持了在语言处理上的优势。
MLP Adapter：模型中使用了MLP（多层感知器）Adapter，用于调整和适配不同模态之间的特征。
降采样模块：为了更好地处理和理解高分辨率的文档或网页图片，CogVLM2在视觉编码器后引入了一个专门的降采样模块，有效提取关键信息，减少输入到语言模型中的序列长度。
Word Embedding：模型包含了Word Embedding层，用于将文本转换为模型可以理解的数值型向量。
多专家模块结构：CogVLM2设计了多专家模块结构，使得在进行推理时，实际激活的参数量仅约120亿，这种设计既保证了模型的性能，又提高了推理效率。
语言基座模型：CogVLM2使用了Meta-Llama-3-8B-Instruct作为语言基座模型，为模型提供了强大的语言理解和生成能力。

CogVLM2的模型性能

CogVLM2的团队在一系列多模态基准上进行了定量评估，这些基准包括 TextVQA、DocVQA、ChartQA、OCRbench、MMMU、MMVet、MMBench等。从下表可以看出CogVLM2 的两个模型，尽管具有较小的模型尺寸，但在多个基准中取得 SOTA性能；而在其他性能上，也能达到与闭源模型（例如GPT-4V、Gemini Pro等）接近的水平。
CogVLM2的基准测试得分

模型	是否开源	模型规模	TextVQA	DocVQA	ChartQA	OCRbench	MMMU	MMVet	MMBench
LLaVA-1.5	✅	13B	61.3	–	–	337	37.0	35.4	67.7
Mini-Gemini	✅	34B	74.1	–	–	–	48.0	59.3	80.6
LLaVA-NeXT-LLaMA3	✅	8B	–	78.2	69.5	–	41.7	–	72.1
LLaVA-NeXT-110B	✅	110B	–	85.7	79.7	–	49.1	–	80.5
InternVL-1.5	✅	20B	80.6	90.9	83.8	720	46.8	55.4	82.3
QwenVL-Plus	❌	–	78.9	91.4	78.1	726	51.4	55.7	67.0
Claude3-Opus	❌	–	–	89.3	80.8	694	59.4	51.7	63.3
Gemini Pro 1.5	❌	–	73.5	86.5	81.3	–	58.5	–	–
GPT-4V	❌	–	78.0	88.4	78.5	656	56.8	67.7	75.0
CogVLM1.1 (Ours)	✅	7B	69.7	–	68.3	590	37.3	52.0	65.8
CogVLM2-LLaMA3 (Ours)	✅	8B	84.2	92.3	81.0	756	44.3	60.4	80.5
CogVLM2-LLaMA3-Chinese (Ours)	✅	8B	85.0	88.4	74.7	780	42.8	60.5	78.9