智能科技前沿动态
执笔:杨文
快手智能技术持续创新。
近期,快手在人工智能领域频频发力,成为行业焦点。
在 OpenAI 的 Sora 模型尚未正式上线之际,快手已率先推出具备卓越视觉效果的 AI 工具「灵」。凭借其高度逼真、分辨率高且不逊于 Sora 的表现,迅速吸引了全球用户的目光。
根据快手官方数据,灵的注册用户数量已接近 70 万,目前已有超过 30 万用户获得使用权限。
趁着热度持续升温,快手迅速推出了灵的网页版版本。
用户们正利用它进行各种创意创作 ——
将蒙娜丽莎画上墨镜:
模仿容嬷嬷喂紫薇吃鸡腿的场景:
创作一只端着高脚杯、兰花指喝红酒的大胖橘形象:
甚至为肯德基打造了一波创意广告。
然而,今天我们将不讨论灵,而是聚焦快手的另一款明星产品 —— 图灵。
在刚刚落幕的 2024 世界人工智能大会上,快手宣布其自主研发的文生图大模型图灵正式向公众开放。
目前,图灵已在 Huggingface 平台和 GitHub 上架,包括模型参数和完整代码,供个人开发者免费使用。
官方网址:https://kwai-kolors.github.io/
GitHub 项目链接:https://github.com/Kwai-Kolors/Kolors
Huggingface 模型链接:https://huggingface.co/Kwai-Kolors/Kolors
技术文档链接:https://github.com/Kwai-Kolors/Kolors/blob/master/imgs/Kolors_paper.pdf
对于非技术背景的用户,若想体验图灵功能,可以直接访问可灵网页版,使用「AI 图像」模块。
可灵网页版:https://klingai.kuaishou.com/
-1-
深度评测:支持中英文书写,还能一键生成动态影像
尽管大型语言模型已展现出强大的语言处理能力,但此前在图像生成方面仍存在不足,无论是汉字还是英文,AI 生成的文本往往难以辨认。
例如,生成的文本可能像这样:
或者这样:
然而,图灵大模型不仅能够生成细节丰富的图像,实现多种风格转换,其最突出的优势在于 ——
具备书写能力!
根据快手介绍,图灵支持中英文双语生成,效果媲美 Midjourney-v6 水平,且能够准确书写中英文。
其中,为了提升对中文的理解能力,快手通过数十亿中文语料的训练,构建了高效的中文 CLIP 模型。
使用方法十分简单。
访问可灵网页版,进入操作界面后,选择「AI 图片」,用户只需输入描述性文本、调整图像比例或上传参考图像。图灵支持长达 256 个字符的文本输入。
文生图功能
例如,输入以下提示词:复古摄影风格的人像,80 年代音乐录影带的视觉效果,多巴胺色调的装饰,背景为复古电视机,屏幕上显示中文“智能科技”,一把系着粉色蝴蝶结的叉子,一个草莓蛋糕,电视广告,80 年代流行文化元素,柔和光线。
提示词:一只可爱的蜥蜴,穿着环卫工的工作服,一只手拿着拖把,另一只手提着水桶。角色扮演游戏场景,色彩鲜艳,对比强烈,带有印刷纹理。特写摄影,富有表现力的姿势,柔和的彩色背景。
图生图功能
图灵还提供图生图功能,用户可直接上传参考图像,并输入描述性文本。
最终生成的效果如下:
依托于可灵网页版,图灵还能将生成的图像作为新参考进行图生图操作。
例如,输入提示词:毛毡艺术作品,高清画质,毛毡材质质感,高级滤镜效果,可爱风格,卡通形象,羊毛毡玩偶,名画风格,梵高的自画像。
十几秒内即可获得以下成果:
接着在生成的图像中点击「垫图」,即可使用参考图功能。继续输入提示词:小羊抱着玫瑰花束,设置好参数后,即可生成新图像。
效果如下:
图生视频功能
图生视频功能的使用逻辑相同。
输入提示词:故宫猫咪武术家,几只故宫猫咪身着白色、红色、黄色的练功服,正在表演武术,美学造型,完美光影效果。
在生成的图像中点击「生成视频」,即可进入图生视频界面。
输入提示词、负向提示词并设置参数,稍作等待即可获得结果。
以下是生成视频的效果展示:
视频链接:https://mp.weixin.qq.com/s/6RapxTDfCfouZsN7v3MYog
-2-
快手图灵与 Ideogram 对比:谁更胜一筹?
国外也有一款擅长生成带文字的 AI 图像应用 ——Ideogram。
该应用被誉为 Midjourney 和 Stable Diffusion 的有力竞争者,由前 Google 工程师创立,并获得硅谷 AI 巨头的投资,于去年 8 月推出,2 月底发布了最新版本。
Ideogram 链接:
https://ideogram.ai/t/explore
发布之初,该应用的核心卖点就是「能够生成各种字体」,这与图灵的特点高度契合。
值得注意的是,无论是快手图灵还是 Ideogram,若要在图像中添加自定义文本,都需要在提示词中添加特定的指令。
快手图灵指令:写着中文「xxxx」。
Ideogram 指令:With the text 「xxxx」,选择「typography(排版)」风格。
通过这种方式,用户可以生成包含特定文字的图像。
接下来,我们将两款产品进行对比测试。
Round 1:书写能力
【写中文】提示词:一只卡通小狗,身上挂着写着“可爱”的木牌。
快手图灵:
Ideogram:
【写英文】提示词:一个生日蛋糕,上面插着蜡烛,写着“Happy Birthday”。
快手图灵:
Ideogram:
Round 2:多样风格
提示词:摄影人像,写真,东方面孔的羊毛卷长发美女,穿着复古服装,头发上点缀鲜花,高级滤镜,复古风格,蓝色背景。
快手图灵:
Ideogram:
提示词:卡通插画,咖啡店内,东方面孔的女孩坐在窗边写作,桌上摆放咖啡、书本和花朵,c4d,oc 渲染,逼真细节,超高清,8k,完美构图,电影灯光,浪漫温馨的画面,甜美风格。
快手图灵:
Ideogram:
提示词:纯黄色背景上排列着夏堇和绿叶,菲尔・科赫风格,水滴效果,浪漫场景,颗粒感,重复构图。
快手图灵:
Ideogram:
经过多次测试,我们发现快手图灵和 Ideogram 各有优劣。
快手图灵在中文生成方面表现出色,基本解决了「鬼画符」的问题,英文生成能力也较强,但有时会出现错字;而 Ideogram 仅支持英文,对中文完全无法处理。
从生成风格来看,Ideogram 提供 18 种风格供用户选择,而快手图灵则需根据提示词中的风格生成。
不过,快手图灵作为国产 AI 绘图模型,在逼真度上更具优势,尤其是在人物特写方面,Ideogram 生成的东方女性形象往往带有外国人的特征,不够自然。
此外,二者的生成速度相近,均在 10 多秒内完成。快手图灵允许用户调整每次生成的图片数量(最多 9 张),而 Ideogram 每次固定生成 4 张。
最关键的一点是,目前快手图灵完全免费使用,而 Ideogram 每日仅有 10 次免费生成机会。
-3-
快手 AI 的崛起之路
近期,快手在人工智能领域投入巨大,专注于开发大型模型和 AI 应用。
尽管此前未引起广泛关注,但一出手就惊艳了行业。
先是推出对标 Sora 的 AI 视频生成应用灵,迅速获得市场认可,接着 AI 生图模型图灵广受好评,最近开源的 LivePortrait 模型也备受瞩目。
实际上,快手的 AI 战略远不止于此。
例如,在 AI 厂商掀起百模大战时,快手推出了自家的快意大模型;Suno 领导的 AI 音乐生成应用风靡一时,快手也加码其 K 歌 APP 回森,推出 AI 美音功能。
此外,还有 AI 剪辑应用快剪、AI 特效创作产品必扬、AI 社交应用快崽,以及嵌入快手短视频 APP 中的 AI 玩评功能等。
不得不承认,曾经以「土味」著称的快手,在 AI 技术的加持下,正逐渐向高端化转型。
然而,在 AI 领域日新月异的迭代速度下,快手的 AI 之路仍需持续努力……