作为全球首个用户可用的真实影像级视频生成大模型,可灵一经问世便引发了强烈反响,连外国网友都纷纷投来了羡慕的目光……
之所以一上线就火到出圈,是因为可灵生成的视频不仅质量高,而且更符合物理规律,大幅度的运动也能准确刻画。
比如这个在公路上高速奔跑的老虎,不仅画面连贯,随镜头角度的变化合理,老虎四肢的动作协调,而且还把奔跑过程中躯干部分的抖动也展现得淋漓尽致。
其中图生视频功能,拥有很强的逼近世界运行规律的能力,杏彩体育网站注册比如网友利用可灵,让《戴珍珠耳环的少女》中的人物动了起来,玩手机、喝咖啡、吃苹果……动作真实又不失优雅。
更有意义的是,可灵的图生视频不仅能用来娱乐,还有网友用它“复活”了长辈的老照片,留下了一段感人的故事……
这次的WAIC上,快手高级副总裁、主站业务与社区科学线负责人盖坤又宣布,可灵再次迎来一系列重磅更新。这也是可灵从发布起一个月内的第三次大动作。
以这个名场面为例,可灵的作品在升级前后的对比是酱婶儿的,可以看出所有的细节处理都比原来更加精细。
对于可灵背后的技术方案,快手视觉生成与互动中心负责人万鹏飞从模型设计、数据保障、计算效率、能力拓展等方面进行了深入剖析。
万鹏飞介绍,可灵最新发布的版本中,在运动生成、物理规律、视频画质、指令响应等七个方向的能力亮点实现了进一步升级。
未来,预计视频生成模型将对游戏、动画、泛视频行业带来新机遇,并有望作为世界模拟器,为具身智能提供互动仿真环境。
除了模型的升级和功能上的更新,快手还重磅发布了可灵Web版本(传送门见文末)杏彩体育,可以在PC上更加方便地创作并管理作品了。
包括Web界面在内,这些新功能也是坚持了快手一以贯之的“不画饼”原则,发布即上线,目前限时免费体验。
另外,此次上线的Web界面同时整合了图片生成功能,它的背后是快手自研的文生图大模型——可图。
而且可图在这里与可灵深度联动,生成图片后可以一键转到图生视频,图生视频当中也可以直接选择可图绘制的图片。
在内部进行的盲测当中,可图取得了第一名的耀眼成绩,超越了MidJourney、Stable Diffusion等一系列知名模型。
在北京智源研究院的第三方测试中,可图也以75.23分的成绩获得了第二名,仅次于76.66分的DALL·E-3。
而且更懂中文,甚至能理解一些古诗词,比如韩愈的《春雪》中,一句“白雪却嫌春色晚,故穿庭树作飞花”就被可图还原得淋漓尽致。
仔细观察图中的细节,你会发现远处虚化的树木已经变成了绿色,还有树上已经绽放的花朵,都符合了诗句当中的季节设定。
可图的上线时间稍早于可灵,于今年的5月31日向公众开放,而就在这次的WAIC大会上,盖坤又隆重宣布,可图大模型正式开源。
盖坤介绍,快手的推荐大模型基于SIM(Search Interest Model)模型打造,拥有10万亿参数量。
从早期的13B版本开始,到现在已经有了主力应用的175B版本和多模态版本,经过了多个版本的研发快意大模型已经在快手内部应用在包括素材创作、AI互动和内容生产等多个场景中。
在快手大模型家族中,快意是最基础的能力,未来除了持续提升快意大模型的基础能力之外,团队还将结合快手的应用场景,做出差异化的功能。
而在C端,快手也在APP评论区中上线了基于大模型的智能体“AI小快”,它是快手官方的智能互动小助手,定位是快手用户有用、有趣且有温度的聊天搭子。
你可以问他视频中各种各样的内容,基于多模态大模型的理解能力可以做出准确的回答,而且AI小快也非常有趣,你可以在评论区画图、画表情包,还能在评论区各种求安慰、求祝福,实现情绪价值。
目前,AI小快有超过1000万的粉丝量,同时有超过1.5亿次的累计互动,而且这还是在AI小快不会主动对你进行评论,只能被动召唤的条件下达到的。
总之,借助大模型矩阵中的各种模型,快手用AI把从B端到C端,从服务到产品的整个生态都武装到了牙齿。杏彩体育网站注册
快手团队在大模型的基础研究和前沿探索方面持续投入,从底层芯片算力、网络架构到顶层应用,都能看到快手自研技术的身影。
在上层,快手一个非常大的优势是快手本身有非常多的AI应用场景,这会给大模型带来非常多的落地机会,我非常有信心的说快手可能是国内在大模型应用上探索最深入的公司。
放眼于具体,快手的大模型技术体系涵盖了文本(快意)、图像(可图)、视频(可灵)等多种数据模态,并且强调多模态大模型之间的关联互通,实现更加智能灵活的感知和生成能力。
在自研精神的驱动和不断的研发投入这下,快手已在视频生成、对话互动、数字人等方向取得了行业领先的突破。
当然,得益于庞大的内容平台和创作生态,快手的一个优势,正是更容易找准大模型技术的最佳应用落点。
具体说,快手重点聚焦在内容推荐、创作助手、互动社区、电商直播、数字营销等几大场景,力求将大模型技术嵌入业务的各个关键环节。
比如在电商直播场景,快手希望通过虚拟主播、智能导购助手等大模型应用,为商家提供了更加智能高效的直播带货解决方案;
又如在数字营销当中,快手将大模型技术与广告平台深度融合,强化多模态广告素材的智能创意生成,提升广告投放的性价比,为广告主创造出了更大价值。
另外,快手不仅与多家高校或科研机构合作进行技术研发,还设立专项了基金支持,学术界的研究创新。
该基金针对“大语言模型”、“视觉理解与生成”等五大核心领域,于本年度推出共计12个研究项目,每项课题最高可获30万元人民币的支持。
纵观整个WAIC大会,大模型、算力、数据、AI治理等都是今年的热点议题。而谈及大模型,开源与否又是一个不可避免被谈及的问题。
这样的做法,亦是快手大模型一贯务实作风的体现,不搞花拳绣腿、不开空头支票,始终坚持产品发布即可用,坚定地为用户做最好的AI技术。