流量就是“硬通货”
专题:2025商界木兰年会
如果DeepSeek等语言大模型代表人类左脑,可灵AI有点像人的右脑。
文|《中国企业家》记者 赵东山
编辑|张晓迪
图片来源|中企图库
4月18日~19日,由《中国企业家》杂志社主办的2025(第十七届)商界木兰年会在北京举办。围绕可灵AI的技术进展和实际应用,快手科技副总裁、大模型团队负责人张迪发表了主题演讲。
张迪演讲的核心观点如下:
1.以DeepSeek为代表的大语言模型,代表的是人类的左脑,更多是关于语言和逻辑的部分。可灵AI等视觉大模型,有点像是人的右脑,更多代表的是人类对图片和视频的理解以及生成。
2.可灵已经发展成了一个全球化的产品,在全球范围之内累计超过2200万的用户,用户使用可灵生成了1.68亿个视频,其中包括3.44亿张图片,可灵在阿根廷、智利等8个国家和地区的iOS应用市场下载排到了第一,在北美市场的分类下载也排到了第一。
3.整个科技行业发展非常快,AI发展非常快,中国大模型从前几年追赶美国的状态到今天各个领域跟美国的差距在缩小,最重要的还是AI转化为新质生产力。
以下为张迪演讲全文:
大语言模型代表左脑,视频大模型代表右脑
尊敬的各位领导,各位企业家,大家上午好!我非常开心能够给大家带来这个分享,我今天分享的主题是“可灵AI助力开启视频创作的新业态”,前面几位企业家都讲到了包括影视跟AI的结合,可以做一个呼应。
我是快手的副总裁,主要在快手负责大模型的研发,我也是一个技术人员,所以接下来我尽可能给大家讲一下中国的AI、中国的大模型发展到什么阶段了。
最开始先说一下整个大模型技术领域,大概可以分成两个大的方向,第一,以DeepSeek为代表的大语言模型,代表的是人类的左脑,更多是关于语言和逻辑的部分。第二,我今天讲的这部分是关于视觉大模型,有点像是人的右脑,更多代表的是人类对于图片和视频的理解以及生成。
首先说一下可灵AI这个业务的愿景,我们的愿景是建设全球领先的AI视觉与表达平台,让每一个人都能够用AI讲出一个好故事,这是我们做这件事情的初衷,我们想让每一个人都可以把自己的创意转化成一个好的视觉的故事。
我今天尽可能少一些文字,因为我们是一个视觉大模型,我尽可能多一些视频素材给大家介绍一下。
可灵AI是去年6月份发布的,是全球首个用户可以使用的真实视频生成大模型,我相信很多人未必了解它是用来做什么的,我说一下2024年春节的时候一个特别火的模型是OpenAI的Sora,这个在全球范围之内引起了一个很大的讨论,Sora发布之后只发布了一些demo,相当长一段时间都没有开放给用户使用,我们也是抓住了这个机会,通过快速研发率先推出了可灵AI。
我们在去年6月份发布的版本上已经可以根据文字描述生成接近电影质感的、比较美轮美奂、比较写实的、符合物理规律的视频片段。
在之后我们整个大模型在国内外引起了很好的一个反响,在国际非常知名的视觉模型评测的榜单上,我们可灵AI也是处于第一名的位置,包括OpenAI的Sora、谷歌的Veo2都排在可灵AI之后。
在海外引起了很大关注
可灵AI发布之后无论是国内还是海外都引起很大的关注,尤其在海外引起了很好的反响,包括埃隆·马斯克都参与到了可灵的讨论里面来,除了DeepSeek以外,可灵AI也是在硅谷代表中国影响力最高的一个视觉模型。
我们在这之后也经过了10个月的快速研发,不停地更新我们的模型、产品,经过了二十几次的迭代,现在我们的可灵已经发展成了一个全球化的产品,我们在全球范围之内累计超过2200万的用户,我们的用户使用可灵生成了1.68亿个视频,3.44亿张图片,我们的APP也是在阿根廷、智利等8个国家和地区的iOS应用市场下载排到了第一,在北美市场的图像与设计分类里面的下载也排到了第一。
讲完整个可灵的介绍,我接下来就用一组短片给大家介绍一下可灵有什么样的能力,4月15日,我们发布了可灵2.0,在可灵发布的时候有两个最核心的模型,一个是可图大模型2.0,做的是图像生成的工作,你输入一段文字,我们就可以按照你的文字指令生成一个图片;第二个是可灵视频生成大模型,你输入一段文字或者输入一张图片,我们就可以生成对应的你想要的视频片段。
从指标上来说,我们发布的新版本在全球范围之内,在这个领域仍然是行业领先的,包括我们的可图在评测上超过了我们的竞品,包括大家比较了解的Midjourney,我们可灵大模型在模型的性能上比谷歌Veo2和OpenAI的Sora,包括非常知名的Runway要更好一点,这是一个模型指标的参考。
过去一年视频生成模型在发生什么?
更直观的,我想给大家展示一下过去一年的时间视频生成的能力到底有一个什么样的变化,大家可以看到这是一年之前我们的模型,左侧是一段非常复杂的描述词,它描述的是一个电影场景的人,一个在跑动的场景,一年之前这个画面没法看,基本上是一个动图,这是2024年1月份。2024年6月份我们发布的版本,虽然画面还是非常糟糕的,至少这个人动起来了,有点像一个视频。
2024年12月份已经有一点感觉了,虽然整个画面视频完成质量很低,但有点感觉了,我们发布的2.0很好地生成了左边的完整视频,是跑酷的画面,整个画面的质量,整个镜头的跟随程度,整个美学已经达到了电影的质感,整个技术的发展是非常快的,一年以前整个行业都不敢想象我们是可以用文字生成近似于影视质感的视频,仅一年的时间,就可以发展为输入左边的文字就可以生成右边的视频,接下来用更多的例子给大家做一个展示。
我们怎么用文字生成图片,再用图片生成电影短片的,右边这个例子是超级创作者用图像模型、视频模型的例子,上面用文字生成的图片,下面用这张图片生成的视频,我们的模型可以响应各种各样的风格,故事片、动作片都可以做得很好,上面这些片段其实是一些电影片段的复现,上面所有的画面和视频都是用AI技术生成的,没有进行任何的拍摄和设计。
一些基本功能,文生视频,输入左边的这些词,右边就可以看到片段,左边是我们的老模型,右边是我们的新模型,对于人物的动作、表情都可以展现得非常详细,下面是延迟摄影的示例,这是文生视频。
图生视频,给我一张图片,可以是生成的,也可以是你拍摄的,就可以生成下面的视频,无论对于写实类的还是卡通动画类的都可以做得非常好。
我们也支持多模态编辑,现有的视频我们可以对视频中元素进行增删改,视频中的PS也可以实现了,有一个示例,展现我们怎么对现有视频进行增删改,这是原始的视频,可以替换中视频中的所有元素,让女生妆容变化、人物变化、吃的东西变化,可以看到这个视频让我们感觉现实好像已经不“存在”了,所有的视频也可以进行动态的变化。
我们知道影视制作除了生成图片视频以外,声音也是很重要的,我们的平台可以提供声音、音效生成能力,声音也是AI生成的,这个短片所有的声音都是AI生成的,这是一个卡通短片,他讲述的是老爷爷和老奶奶回忆自己青春时的经历,所有的声音都是根据画面自动生成的,可以看到无论是图像、视频、声音,AI都代表了新质生产力,大幅降低了创作的成本,提高了创作的效率,这是声音部分。
可灵AI带来的新商业机会
AI也可以带来很多有意思的玩法,我们给木兰会的LOGO做了一个视频效果,可以变成非常有意思的动漫特效。
最后我想给大家展示AI做电影、AI做商业化做到什么程度,接下来的短片能够震撼到大家,这个是我们超级创作者给我们做的最新电影短片中的片段,《王国》,所有内容都是AI生成的,网友们说是AI版《权力的游戏》,如果用传统的拍摄技术,拍摄难度、拍摄成本都非常高,我们用AI做这个片子大概是几个人的工作室,做了一周的成本,这是一个短片,真实片子有20分钟的长度,我们在5月份会有一个完整系列的短片,每个片子有20~40分钟,有十部片子在全球发布,包括了各种各样的风格。
整个科技行业发展非常快,AI发展非常快,中国大模型从前几年追赶美国的状态到今天各个领域跟美国的差距在缩小,最重要的还是AI转化为新质生产力,跟各行各业结合在一起。
新浪声明:所有会议实录均为现场速记整理,未经演讲者审阅,新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。