综合百科

日期计算器软件app

日期计算器软件app

科幻电影中的AI自我复制失控场景正逐渐变为现实世界的研究课题。英国的人工智能安全研究所(AISI)推出了一项名为RepliBench的基准测试,旨在评估AI自主复制的能力。目前,尽管AI尚不具备完全自主复制的能力,但在某些子任务上已展现出显著进展。

想象一下,一个拥有自我复制能力的数字生命体,它会在多短时间内占领地球?从电影《2001太空漫游》中的HAL 9000到《终结者》里的天网,这些虚构的场景描绘了AI超越人类控制的潜在风险。

现在,人们的关注点不仅仅是AI的单体智能水平,还有一个潜在的风险正逐渐引起人们的关注,那就是AI自主复制的可能性。这种担忧并非危言耸听,而是源于对高级AI潜在能力的未知和对齐(alignment)问题的深刻思考。

AISI的最新论文介绍了RepliBench基准测试的构成。这个基准包含20个新颖的LLM智能体评估,65个单独的任务,旨在衡量和AI复制这一新兴能力。通过引入这个现实且实用的基准,人们可以获得对AI系统自主复制能力的实质性理解,并预见到未来的风险。

具有自主复制能力的AI系统可能会构成重大风险。这种风险的范围可能从轻微的烦恼,比如一个恶意的垃圾邮件机器人,到更严重的后果,比如发动代价高昂的网络攻击。早期发现这些能力、谨慎监督和强有力的保护措施对于缓解这些风险至关重要。

AISI是英国的一家研究机构,专注于AI安全,目的是让人类能够提前对先进AI系统带来的风险有所重视。有越来越多的证据表明,在适当的条件下,前沿模型可能会试图欺骗人类或逃避人类控制。例如,之前的研究已经描述过前沿模型可能会试图禁用监督机制,并从人类控制中逃逸,以实现特定目标。

关于“AI复制”,此前的工作主要集中在评估测试一个AI智能体是否可以在机器之间复制权重或部署一个基本的“后代”。但目前需要一个更全面的基准测试来系统性地衡量AI系统的自主复制能力。

RepliBench基准测试就是这样一项专门设计的综合性测试,它通过分解自主复制所需的能力,并发现以下四个关键能力:获取模型权重、在计算资源上进行复制、获取资源、以及持久性。进一步分解这些能力,直到到达代表评估的叶节点,最终得到20个智能体评估和65个单独任务。

尽管当前的前沿AI模型尚不具备在现实世界中完全自主复制的能力,但研究同时揭示了AI在许多核心子任务上的显著能力。RepliBench的总体评估结论明确:基于当前的测试结果,AI系统立刻实现自主复制的可能性不大,因为存在明显的、难以逾越的技术瓶颈。如果AI系统能够突破上述提到的四个关键能力,这种科幻故事般的场景可能会很快进入现实生活。

这项研究的核心反映了当前AI发展中的根本性张力。一方面,各大巨头不断创造性能超强的模型;致力于AI安全的需要确保这些系统始终处于人类的控制之下,服务于人类的利益。像RepliBench这样的努力旨在在这两者之间找到平衡,通过增进理解和加强预警,为驾驭这场技术变革提供导航。毕竟,谁也无法预测未来五代、十代以后的AI模型会是什么样子。我们所能做的就是保持警惕、不断探索和学习,以确保人工智能始终服务于人类的利益。更多信息可关注微信公众号“新智元”。


日期计算器软件app

你可能也会喜欢...