注意看,眼前这个男人已经开始XX
不无生硬,现在无论我们走到哪都很逃不过过上面这个声音。虽然其在努力仿效人类的节奏语气,但还是能一耳朵就能听出来已经开始解说员电影的,不是人,而是AI。
输出艺术设计,自动合成音频,AI难成当下短音频大批量化生产的标准配置。而在音频之外,图像亦是AI的萨温齐方向。
先是AI原画火出圈,抖音网络平台上,AI原画的话题播映量达1.7万次,AI油画的播映量更是高达11.8万次。然后是文档聚合音频,AI的文档聚合潜能再上一个石阶,META、Google近日陆续正式发布了由AI聚合的短音频,千家号、TikTok等文档网络平台同样下注AI,更新有关辅助创作功能。
国庆期间《解放日报》官方帐号还专门正式发布了一条AI油画版《我的故土》MV,全站网友丰富多彩。
.jpg)
从音频到动态摄影机再到动态图像,至此,AIGC(人工智慧聚合文档)对短音频完成了全面渗入。
考虑到AI的变异速度,昨天还只会TNUMBERG25Mi,今天就能或说聚合虚拟世界并不存在的音频摄影机,担忧自然接踵而至。摄影机交给AI,制作者迪耶县、网络平台怎样应对?
AI对短音频的侵略,牵涉出一系列值得讨论的问题。
截至2022年中,中国短音频用户达到9.62亿,占整体网友的91.5%。在这样一个短音频大盘里,AI聚合的文档的群众基础如何?
音频网络平台上近期兴起的一类文档可以作为参考。
选一首歌德国大众熟悉的曲目,让AI根据原曲聚合摄影机,组合起来便是一支由AI主演的MV。比如《丹东夜总会》《孤恶龙》《杀掉这个太原人》《波波希米亚罗曼史》等,都能找到有关的AI原画音频。
所以,这类音频的参与度也持续上升。以B攀上《杀掉这个太原人》有关音频为例,摄影机由名为Midjourney的AI油画程序所写,9月30日正式发布,十个月时间其播映量累计达103.4万,点赞量4.4万。
学了三四年艺术,Amou不如AI输出字典十几秒就出的画,在看过音频之后,网友乳酪给出评价,画不轻松,可学习潜能让人赞叹。所以,在虚荣心的怂恿下,乳酪开始在各个网络平台搜寻有关文档。
转换到AI视点,感受演算法模型对世界的知觉,这其实正是AIGC赢得广泛关注的根本原因。
AI创作的动态摄影机已然火爆至此,若进一步升级为短音频,对用户的吸引可以想象。
而从静向动,从二维升级三维恰是AIGC发展的大势所在,Meta和Google近期的动作就是风向标,二者先后正式发布了根据文档聚合音频的最新研究成果。
.jpg)
从Google正式发布的样片来看,AI不仅可以理解文字并聚合高清动态图像,如骑马、冲咖啡等,还能在文字故事的基础上以图像呈现一段完整的长摄影机,时长可达2分钟以上。
基于AI已经初步具备创作短音频潜能的事实,有业内人士评论称,随着AI对于短音频的‘侵略’与日俱深,短音频网络平台的文档池里除传统的UGC(专业生产文档)、PGC(用户生产文档)以外,AIGC将占到更多比例,且流量号召力不容小觑。
Gartner有关报告中也明确指出,预计到2023年,将有20%的文档被聚合式AI所创建。2025年,聚合性AI所创造的数据将占到所有已生产数据的10%,当下该比例不足1%。
在同一条赛道里争夺用户的注意力,AI与制作者之间的竞争关系显现。Meta、Google的AI模型聚合音频的消息一出,抢饭碗的言论便甚嚣尘上。
.jpg)
事实上,AI与人类之间的爱恨纠缠,并不是新鲜话题。聚焦到文档创作领域,不久前网友刚进行过一次大规模辩论,起因为国外的一场艺术博览会把头奖颁给了AI油画的作品,引来人类艺术家全体不服。
在深圳经营MCN机构的彭磊,公司运营着多个短音频网络平台帐号,他认为,对AI的反感可以理解,但是AI来抢饭碗、短音频行业要变天的说法站不住脚。这种非黑即白的知觉大概率是错的,之前也有过验证。
举个例子,在短音频火起来之前,图文媒体时代,AI技术被引入写作,当时市场也一度悲观地预判文字工作者将被取代。事实证明,担心是多余的。
短音频行业绕不开AI,字幕、配音都是,接下来也会长期共存。大家使用技术目的是提高效率,可有些功能便利的代价就是影响作品整体观感。比如配音,AI永远是在仿效人类,对作品有要求的制作者来说一般是避开AI配音,因为它和真人差距明显,工业化痕迹太重,彭磊表示。
另一位做影视解说员的博主表达了相同观点,按需使用,AI配音优势在于快速大批量复制,以量取胜。真正的优质作品基本不会允许自己精心写的艺术设计以那种机器声线读出来,以质取胜。
因此,AI技术在降低文档生产的门槛,放低了下限,上限依然靠的是人类制作者。
这便是AIGC固有的局限性,AI原画、AI聚合音频同样难以绕过。
以AI原画为例,在欣赏了多幅画作之后,乳酪发现,AI原画初看赞叹,却非常容易造成审美疲劳,看多了感觉每一幅都在重复。
在专业人士的解释里,之所以会有上述感觉,原因很简单,所有的AI原画都是在人类已经创造的画风、技巧之上通过模型计算得出。所以,机器更多只是表层理解,无法参透深意,就是常说的没有灵魂。
所以,当AIGC的新鲜感光环消散,观众的视线焦点回归文档本身,AI原画、AI聚合音频将被重新审视。到时再说抢饭碗的话题,或许会得到不同的答案。
行业新技术的出现,除了直接影响到用户、制作者群体,网络平台方作为舞台的搭建者,自然也在密切关注。
第一阶段是「助手阶段」,AIGC辅助人类进行文档生产;第二阶段是「协作阶段」,AIGC以虚实并存的虚拟人形态出现,形成人机共生的局面;第三阶段是「原创阶段」,AIGC将独立完成文档创作。
参照李彦宏所讲的AIGC的三个发展阶段,纵观当前文档网络平台的布局,无论图文还是短音频网络平台,其服务潜能大多停留在第一阶段,即使用AI有关的技术帮助制作者进行更高效率的写作、拍音频。
如抖音官方剪辑软件剪映提供的音频识别转字幕、文字聚合音频等,B站官方剪辑软件必剪推出的智能抠图等AI功能。
有业内人士进一步补充,包括拍短音频时会用到的漫画风、迪士尼风、变老这些特效滤镜,也都和AI技术有结合。不过这些还没有达到独立聚合音频的高度,是介于辅助创作和原创聚合之间,跟ZAO换脸APP一样,借助聚合类网络完成。
随着AIGC技术发展,文档网络平台的服务潜能将迎来升级。
.jpg)
以制作者的图文转音频需求为例,剪映为此推出图文成片功能,输出一段文字,软件智能匹配图片素材、添加字幕、旁白和音乐,自动聚合音频。千家号等文档网络平台也提供了有关的解决方案。
身处创作一线的彭磊认为:现在的转音频,工作时间上确实可以把一条音频的制作缩短到分钟级,可成片效果并不理想。单纯是从素材库选图、选音频拼凑实现。体验都是一样的鸡肋,经常可以遇到问题就是,本来完整的一句话,中间如果有停顿,系统可能就会根据前后句找来两段完全没关联的素材拼在一起。
正所谓能用起来的技术才是好技术,现阶段文档网络平台的服务潜能尚存在较大进步空间,AIGC技术的发展正是解决之道。
而另一方面,AIGC的大面积上线,必然会给网络平台文档生态带来新的管理挑战。
此前,AI技术在短音频领域的滥用已有不少前车之鉴。原因在于AIGC有一个非常显著的特点——以假乱真。
最典型的,市面上有很多开放性的AI换脸工具,制作者使用软件对音频文档进行加工,轻易就能达到移花接木的效果。此前抖音有人疑似使用AI换脸变身俄罗斯美女,吸粉近200万后遭到网络平台封禁;B攀上AI换脸更是制作者鬼畜整活的最常用手段,网络平台则会在有关音频下方给出警醒提示。
目前最前沿的AI原画、AI聚合音频,其无中生有的特性,无疑放大了文档造假的风险。
国外热度颇高的文档油画程序Stable Diffusion就遇到了这样的麻烦,由于开发者不对聚合文档加以审核过滤,用户可以聚合各种图片,为欺诈、侵犯他人肖像、盗版抄袭等提供了可乘之机。
对于抖音、快手、B站等网络平台来说,如何加强对这类音频进行无害化处理,显然不比治理AI换脸来得轻松。这就意味着,在将新技术用好之前,网络平台不可避免会经历一段阵痛期。
有人期待技术为己所用,有人担心被AIGC抢了饭碗,更有甚者预言短音频将要变天......
而在真正爆发之前,一切其实都还是未知数。但可以确定,AIGC对文档领域的渗入还在继续,AIGC产业仍将快速扩张。
如果把AIGC的概念继续放宽,在AI原画、AI聚合音频等文档生产之外,业内通常还会把虚拟数字人也视作AIGC的另一核心载体。
鉴于虚拟数字人的极高热度,AIGC的发展空间更加值得肯定。
当前短音频网络平台上的虚拟人队伍已经开始不断壮大,形象各异的他们已在短音频创作群体中占据一席之地。数据显示,网络平台上有关音频的播映总量早已破亿。
而有关虚拟人的另一个客观事实则告诉我们,短音频只是其应用场景之一。VC数千亿的投入,阿里、百度、字节、华为等科技互联网公司共同出手,更大概率上瞄准的是虚拟人在短音频之外的广阔天地。
由点及面,AIGC在向短音频全面渗入,但其未来的应用价值绝不止于此。放眼整个AI领域,AIGC所涵盖的聚合性AI技术被认定为AI领域过去10年最有前景的进展。
无可厚非的是,面对前沿技术所代表的未知,大家在期待的同时总是伴有本能的恐惧。
几百年前火车问世,引擎轰鸣驱动人类社会进入高速时代,却也上演了人拉火车的闹剧;几年前5G商用之际,对于5G辐射过大的质疑不绝于耳,现国内三大运营商的5G套餐用户已接近10亿;再到方兴未艾的AIGC,各方不同的态度其实都在情理之中。
作为从业者以及制作者,彭磊对AI聚合音频以及AIGC市场持有乐观态度,最直观的一点,AI聚合音频可以从根源上解决制作者的素材困扰。找不到合适素材时,直接程序聚合,如果网络平台放开版权归属,甚至都不用考虑版权纠纷,放在现在的创作环境里是完全不敢想的。
或许,将期待与恐惧叠加,放眼前沿的同时对技术审慎待之,这才是我们在讨论AIGC之于短音频产业的影响时应有的基本立场。