百科知识

10秒短视频动态头像

10秒短视频动态头像

在3月6日这一天,腾讯混元团队宣布推出全新的图生视频模型,并且决定将其对外开源。与此他们引入了众多创新功能,如对口型与动作驱动等玩法,并支持生成高质量背景音效及2K分辨率的视频。

基于图生视频的强大能力,用户只需上传一张图片,并简单描述想要的画面动作及镜头调度要求,混元模型就能够让图片动起来,转化为精彩的5秒短视频,并且自动匹配适合的背景音效。对于那些上传的人物图片,用户只需输入相应的文字或音频内容,图片中的人物便可以“说话”或“唱歌”。如果用户选择相应的动作模板,甚至可以轻松生成跳舞的同款视频。

想要体验这项服务的企业和个人可以通过访问混元AI视频(video.hunyuan./)来亲自感受。腾讯云也向企业和开发者开放API接口以供使用。

这次开源的图生视频模型是混元在文生视频模型开源工作基础上的进一步延续。该模型的参数量依然保持在130亿,适用于各种角色和场景,无论是写实视频制作还是动漫角色、CGI角色制作都能轻松应对。开源内容不仅包括权重、推理代码,还有LoRA训练代码,开发者可以基于混元训练自己的专属LoRA等衍生模型。目前,该模型已在Github、Hugging Face等主流开发者社区提供下载体验。

根据混元开源技术报告,混元视频生成模型拥有出色的扩展性能。它的图生视频和文生视频可以在相同的数据集上进行预训练。在保证超写实画质、流畅演绎大幅度动作、原生镜头切换等特性的基础上,该模型能够捕捉到丰富的视觉和语义信息,并且能够结合图像、文本、音频和姿态等多种输入条件,实现对生成视频的度控制。

自从混元视频生成模型开源以来,其热度一直居高不下。去年12月,它甚至成功登顶huggingface全站趋势榜首位,目前在Github平台上Star数已经超过了8.9K。许多开发者自发地制作基于社区Hunyuanvideo的插件和衍生模型,目前已经积累了超过900个衍生版本。甚至更早开源的混元DiT文生图模型,在国内外也衍生出了多达1600多个模型。

目前,混元的开源系列模型已经全面覆盖了文本、图像、视频和3D生成等多个领域,吸引了超过2.3万的开发者关注和参与。


10秒短视频动态头像

你可能也会喜欢...