多模态大模型有哪些 – 28百科知识网

整理自 Happy量子位，由公众号 QbitAI发布

GPT-4的火爆，掀起了学术界对于多模态大模型的热烈探讨。关于这类模型的性能评估，业界一直众说纷纭，尚未有一个广泛认可的评价标准。为此，腾讯优图联合科学技术大学及厦门大学，接连发表了两篇关于多模态大模型的论文。

其中，首篇多模态大模型综述及一个全面的评测榜单尤为引人瞩目。相关项目在GitHub上受到广泛关注，截至7月3日已收获超过2200颗星。那么，当前最好用的多模态大模型有哪些？它的定义、关键技术、优势及挑战又是什么呢？让我们一同探究。

研究人员设置了16个榜单，包括两个总榜单和14个子任务。总榜单可视为模型“整体能力”的评分，分为感知类和认知类。14个子任务则更细分，以评测多模态大模型在特定领域的表现。

在感知类总榜单中，IP-2表现最佳；而在认知类总榜单中，MiniGPT-4脱颖而出。评测发现，IP-2和InstructIP在两大榜单中均居前三，堪称当前开源多模态大模型的佼佼者。

具体到14个子任务上，模型的排名又有所不同。评测结果详细展示了各模型的优劣，一目了然。

那么，这个榜单的评分标准是如何制定的呢？论文提出了一个好的多模态大模型评价标准的四大特性：

1. 标准应覆盖尽可能多的范围，包括感知和认知能力（感知是认知的基础）。其中，感知指的是识别物体，包括其存在性、数量、位置和颜色等；认知则基于综合感知信息以及LLM中的知识进行更复杂的推理。

2. 数据和标注应避免使用已有的公开数据集，以减少数据风险。为此，评测中的指令-答案对都是人工构建的，且对于少量使用的公开数据集，仅使用其图像而不用原始标注。

3. 指令设计应简洁，符合人类认知习惯。不同的指令可能影响模型的输出，因此好的多模态大模型应具备在简洁指令下表现的能力。

4. 模型在简洁指令下的输出应是直观的、便于定量统计。为此，研究人员设计了简洁的指令，并根据模型回答的准确性进行评分。

关于多模态大模型的定义、关键技术和挑战，论文也进行了详细的综述。多模态大模型是由LLM扩展而来的、具备接收与推理多模态信息能力的模型。相较于单模态LLM，它更符合人类认知世界的习惯，拥有更强大的用户接口，并能支持更多任务。研究多模态大模型需要掌握三个关键技术和一个应用，即多模态指令微调、多模态上下文学习、多模态思维链和以LLM为核心的多模态系统的研究。目前多模态大模型仍面临一些挑战，如感知能力受限、推理链脆弱等。更多细节可查阅论文。

你可能也会喜欢...

微软笔记本型号在哪里看

腿上断了三根筋能不能定残

写给叛逆期女儿的信和心里话爱顶嘴