百科知识

天猫精灵自定义唤醒词设置方法视频

天猫精灵自定义唤醒词设置方法视频

你或许已经看过那个视频:有人高呼一声”嘿,Siri”,然后一群Siri应声而来,其环绕立体声效如同身临其境的杜比全景声。这一场景无疑引发了一轮笑声,但也不经意间突显出人工智能语音助手的一个显著特点——必须说出特定的唤醒词才能进行交互。这一现状即将被。

在最近的云栖上,天猫精灵发布了首个全场景人机交流系统AliGenie 5.0。这一系统融合了人脸唤醒、唇动唤醒、手势操控以及语音交互等多种方式,无需再喊出”天猫精灵”,即可直接与机器对话。简单来说,这是一个做了减法的创新,但却对人机交互产生了性的影响。

AliGenie 5.0的多模态融合技术为人机交互领域带来了新的突破。模态,可以理解为传递信息的不同方式,如视频、图像、语音、手势等。多模态融合即是将这些不同形式的交互信息融合在一起,使人与机器之间的交流更加自然流畅。而AliGenie 5.0系统已经成功应用于天猫精灵的三款秋季新品上,其中CC10电池版更是率先上线了多模态唤醒功能。

这一创新对阿里公司乃至整个人机交互技术领域都具有重要意义。多模态唤醒技术的首次大规模应用在消费电子产品上,预示着手机、智能音箱等智能家居设备的交互方式将发生全面变革。这种变革的前提是天猫精灵AliGenie 5.0系统带来的多模态唤醒体验如宣传所说一样出色。

我亲自体验了CC10电池版的多模态唤醒功能,感觉它确实刷新了我对智能音箱的使用认知。无需高喊”天猫精灵”,只需转向它,它就能立即回应我。就像在和旁边的同事对话一样自然。CC10电池版还支持多种手势操控,如竖大拇指收藏内容,做”嘘”的手势静音,这种拟人化的交流方式让交互更加顺畅。

天猫精灵的算法专家通过深度融合视觉和语音识别能力,以及上下文语义,让机器能够”能听、会看”。开启多模态唤醒功能后,机器能够识别用户的唇动、眼神朝向、表作,并直接给出反馈。在实际使用中,我发现它的准确率非常高,即使在人声嘈杂的环境下也不会被误唤醒。

多模态唤醒技术降低了误唤醒率,使得人机交互更加智能贴心。根据天猫精灵的数据,结合人脸、唇动唤醒和语音自然对话,多模态识别的准确率超过99%。这一技术在”近场、中场、远场”三类人机交互情景下都能发挥出色作用。

最终,天猫精灵AliGenie 5.0的多模态唤醒技术让人工智能助手更加智能化,让每个人都能无差别地享受AI带来的便利。这一技术的落地应用,让我想起了许多科幻电影中描绘的未来生活场景,人工智能化身管家,通过自然语言的交流主动为人们提供服务。这样的未来已越来越近,技术正在降低人们触达前沿科技的门槛,让更多人享受便利。


天猫精灵自定义唤醒词设置方法视频

你可能也会喜欢...