百科知识

大模型集体遭遇挑战:GPT-4o在中文网页检索测试中的准确率仅达6.2%

大模型集体遭遇挑战:GPT-4o在中文网页检索测试中的准确率仅达6.2%

量子位新闻:你是否认为大型模型已经能够轻松应对中文网页的挑战?最新发布的BrowseComp-ZH基准测试集对众多国内外主流的大型模型提出了严峻考验,揭示了实际情况并非如此。这个测试集由香港科技大学(广州)、北京大学以及浙江大学等机构联合发布,旨在评估模型在理解和检索中文网页方面的能力。然而结果令人失望,即使是表现最佳的OpenAI DeepResearch模型,其准确率也只有42.9%,而GPT-4o模型的准确率更是低至令人难以置信的仅6.2%。更为引人注目的是,许多国内和国际的模型的准确率竟然低于百分之十。该测试集现已完全开源,让更多的人能够了解这一领域的现状。

研究人员指出,我们需要专门评估大模型在中文网页上的能力的原因在于中文互联网信息的碎片化现象严重,搜索引擎的质量参差不齐,语言表达复杂多样。现有的英文测试集无法充分评估模型在中文环境下的表现。为了构建这一测试集,研究团队采取了逆向设计的方法,确保每个问题都有明确的答案和清晰的结构。最终成功构建了涵盖多个领域的包含高难度中文题目的测试集,共有289道多跳检索题目。测试结果揭示了几个关键发现:仅仅依靠记忆并不能解决问题,模型必须具备真正的推理和信息整合能力。拥有推理能力的模型表现更优秀,尤其是那些具备多轮检索能力的AI搜索产品。并非所有模型的搜索功能都能有效地提高准确率,有些模型的搜索功能甚至会导致准确率显著下降。我们希望通过这个基准测试推动自然语言处理领域的发展,并鼓励模型开发者挑战自我。该数据集已经开放供公众使用,可以通过论文地址和代码地址获取详细信息。持续关注量子位头条号将帮助您获取最前沿的科技动态资讯。


大模型集体遭遇挑战:GPT-4o在中文网页检索测试中的准确率仅达6.2%

你可能也会喜欢...