允中 发自 凹非寺

量子位 | 公众号 QbitAI

12月发轫,可灵AI接连放出大招。

人人首个长入的多模态视频及图片创作用具“可灵O1”、具备“音画同出”才智的可灵2.6模子、可灵数字东说念主2.0功能……

5天内5次“上新”,获胜让生成式AI范围的竞争“卷”出新高度。

可灵O1,从图片到视频,带来更强的“可控性”

可灵2.0发布的时候,就革命性地建议过一个全新友互理念——Multimodal Visual Language(MVL),让用户好像连合图像参考、视频片断等多模态信息,将脑海中包含身份、外不雅、立场、场景、动作、热枕、运镜在内的多维度复杂创意,获胜高效地传达给AI。

基于MVL理念,在最新的一次迭代中,可灵O1将统共生成和剪辑任务和会于一个万能引擎之中,为用户搭建全新的多模态创作流,杀青从灵感到制品的一站式闭环。

就像a16z投资合资东说念主Justine Moore在居品发布后第一时辰点评的那样:

咱们终于迎来了视频界的Nano Banana。

以可灵视频O1模子为例,它浮松了传统单一视频生成任务的模子范围,将参考生视频、文生视频、首尾帧生视频、视频内容增删、视频修变嫌换、立场重绘、镜头延展等多种任务,和会于归并个万能引擎之中,使得用户无需在多个模子及用具间跳转,即可一站式完成从生成到修改的一齐创作过程。

岂论是创作家们“头疼”已久的主体一致性难题,还是视频画面的可控性问题,都在此次模子迭代里找到了相对完满的处治决策。

在图片生成这件事上,可灵AI也革命性地完成了迭代。

最新上线的图像O1模子,不错杀青从基础图像生成到高阶细节剪辑全链路无缝衔尾,对用户来说,既可通过纯文本生成图像,也可上传最多10张参考图进行和会再创作。

“音画同出”才智也有了!可灵2.6模子完成里程碑式迭代

家喻户晓,可灵领有一多量诚恳的“发热友”。他们既是居品的深度使用者,也能从功能层面建议我方的视力。

O1发布之后,就有不少网友列队“许诺”居品功能,名次靠前的,委果都在热心可灵什么时候会推出奉陪视频画面的语音及音效直出功能。

谜底很快就揭晓了。

12月3昼夜晚,可灵AI接着“放大招”,厚爱推出2.6模子。

此次更新中,可灵AI上线里程碑式的“音画同出”才智,透顶变嫌了传统AI视频生成模子“先无声画面、后东说念主工配音”的责任过程。

它好像在单次生成中,输出包含当然语言、动作音效以及环境氛围音的完整视频,重构了AI视频创作责任流,极大升迁创作效用。

可灵AI国外超等创作家、AI电影导演Simon Meyer制作的这支宣传片,机动施展注解了此次可灵2.6的才智革命之处。

关于创作家来说,输入文本或是输入图片连合提醒词文本,均可获胜生成带有语音、音效及环境音的视频。

语音部分,可灵现在复旧生成汉文以及英文,生成视频长度最长复旧10秒(听说,更各样的语言体系以及固定声线等功能正在研发中)。

通过对物理天下声息与动态画面的深度语义对王人,可灵2.6模子在音画协同、音频质料和语义意会上阐扬亮眼。

对“音画同出”才智感意思意思的一又友,不错连忙试试,说不定你会和Simon Meyer相同产生犀利共识。

密集更新背后,可灵AI鄙人一盘怎样的大棋?

除了全新推出的可灵O1及2.6模子这两大重磅更新,可灵还在上周接踵推出了数字东说念主2.0、可灵O1主体库&对比模板等功能,从AI内容生成的本色过程开赴,带来愈加浮浅的操作体验。

5天内5次“上新”,功能层面的精进背后,是可灵关于生成式AI技巧的极致追求。

比如12月1日推出的视频O1模子,就浮松了视频模子在生成、剪辑与意会上的功能割裂,构建了全新的生成式底座。

和会多模态意会的Multimodal Transformer和多模态长高下文(Multimodal Long Context),杀青了多任务的深度和会与长入。

凭据可灵AI团队的里面测评,在“图片参考”任务上,可灵AI对Google Veo 3.1的举座成果输赢比为247%;在“指示变换”任务上,与Runway Aleph对比的举座成果输赢比达到230%。

尤为长途的是,算作国产视频生成大模子范围的代表,从2024年6月厚爱推出以来,可灵AI的每一次迭代委果都能让业界迎来一次“集体激昂”。

从早期东说念主们津津乐说念的吃面条的案例,到特斯拉独创东说念主马斯克的点赞,再到可灵AI这一波“批量上新”操作,视觉生成技巧安宁走向熟谙的过程里,可灵AI无疑是阿谁时常唤起共识的过失脚色。

△X网友Min Choi发布的著作,对比了不同技巧才智之下“威尔·史小姐吃意大利面”的经典场景

在握续激发盘问的同期,能否鼓励技巧的夙昔运用落地,亦然生成式AI平台不得不靠近的问题。

数据显现,可灵AI现在袒护的企业用户数跳动2万家,涵盖影视制作、告白、创意筹算、自媒体、游戏、电商等等诸多范围。

多元的行业客户组成,意味着可灵AI必须握续浮松技巧运用的上限。

就像此次升级的可灵2.6模子,不错复旧包括谈话、对话、旁白、唱歌、Rap、环境音效、搀和音效等多种声息的单独或搀和生成,好像夙昔地运用于百行万企的本色创作场景中,极大升迁创作效用;

再比如数字东说念主2.0功能的迭代,关于创作家而言,只需要上传脚色图,添加配音内容并描绘脚色阐扬,就不错获得阐扬力机动的“自界说数字东说念主”,更令东说念主激昂的是,视频内容最长可达5分钟。

快手高档副总裁、可灵AI作事部负责东说念主兼社区科学线负责东说念主盖坤曾在不同格式示意:

咱们的初心,是让每个东说念主都能用AI讲出好的故事,咱们也表示地但愿这一天更快到来。

在可灵AI年末的这一系列更新中,咱们感受到,这一天更近了。