整理自 Happy量子位,由公众号 QbitAI发布
GPT-4的火爆,掀起了学术界对于多模态大模型的热烈探讨。关于这类模型的性能评估,业界一直众说纷纭,尚未有一个广泛认可的评价标准。为此,腾讯优图联合科学技术大学及厦门大学,接连发表了两篇关于多模态大模型的论文。
其中,首篇多模态大模型综述及一个全面的评测榜单尤为引人瞩目。相关项目在GitHub上受到广泛关注,截至7月3日已收获超过2200颗星。那么,当前最好用的多模态大模型有哪些?它的定义、关键技术、优势及挑战又是什么呢?让我们一同探究。
研究人员设置了16个榜单,包括两个总榜单和14个子任务。总榜单可视为模型“整体能力”的评分,分为感知类和认知类。14个子任务则更细分,以评测多模态大模型在特定领域的表现。
在感知类总榜单中,IP-2表现最佳;而在认知类总榜单中,MiniGPT-4脱颖而出。评测发现,IP-2和InstructIP在两大榜单中均居前三,堪称当前开源多模态大模型的佼佼者。
具体到14个子任务上,模型的排名又有所不同。评测结果详细展示了各模型的优劣,一目了然。
那么,这个榜单的评分标准是如何制定的呢?论文提出了一个好的多模态大模型评价标准的四大特性:
1. 标准应覆盖尽可能多的范围,包括感知和认知能力(感知是认知的基础)。其中,感知指的是识别物体,包括其存在性、数量、位置和颜色等;认知则基于综合感知信息以及LLM中的知识进行更复杂的推理。
2. 数据和标注应避免使用已有的公开数据集,以减少数据风险。为此,评测中的指令-答案对都是人工构建的,且对于少量使用的公开数据集,仅使用其图像而不用原始标注。
3. 指令设计应简洁,符合人类认知习惯。不同的指令可能影响模型的输出,因此好的多模态大模型应具备在简洁指令下表现的能力。
4. 模型在简洁指令下的输出应是直观的、便于定量统计。为此,研究人员设计了简洁的指令,并根据模型回答的准确性进行评分。
关于多模态大模型的定义、关键技术和挑战,论文也进行了详细的综述。多模态大模型是由LLM扩展而来的、具备接收与推理多模态信息能力的模型。相较于单模态LLM,它更符合人类认知世界的习惯,拥有更强大的用户接口,并能支持更多任务。研究多模态大模型需要掌握三个关键技术和一个应用,即多模态指令微调、多模态上下文学习、多模态思维链和以LLM为核心的多模态系统的研究。目前多模态大模型仍面临一些挑战,如感知能力受限、推理链脆弱等。更多细节可查阅论文。