为进一步提升快手直播的影响力,同时帮助用户快速消费直播中的精彩内容,快手MMU推出一套自研直播高光智能成片解决方案,首先利用语音、视觉等音视频多模态AI技术识别出直播内容的高光片段,再通过智能剪辑技术确定精确的高光时刻起止时间,最后再根据视频内容理解结果智能选择自动字幕、配音配乐、音乐卡点、混剪转场、特效渲染等创作方式,实现一站式全自动智能生成精美的高光短视频。该技术覆盖秀场、游戏、电商等直播场景下30+个细分垂类直播的高光剪辑,既为广泛的创作者制作短视频提供便利,又让用户高效消费直播的精彩瞬间,有效促进了直播高光视频的生产和传播。

前言

快手是一个短视频社区,不仅有海量的短视频内容,还有非常丰富的直播内容。我们知道,直播是即时性内容,需要用户长时间集中精力来消费。为了方便用户快速消费直播中的精彩内容,快手MMU团队自研了一套直播高光智能成片解决方案,利用音频、视觉、NLP等多模态AI技术将直播的高光瞬间智能剪辑生成精美短视频。

目前业界对高光剪辑和视频摘要已有较多的研究和实现,如2023年国庆阅兵中,央视将阅兵直播的精彩瞬间剪辑成短视频发布;咪咕视频把世界杯赛事直播自动剪辑出进球、射门、犯规、过人等精彩片段。可以看出,业界主要针对单一特定直播垂类进行精彩剪辑,而快手的直播内容非常丰富,形成了秀场、电商、游戏、蓝领招聘、影视综等多个场景的直播生态,细分垂类更是丰富多样,如唱歌、舞蹈、乐器演奏、游戏、闲聊、二次元、影视综等等。我们知道,不同垂类直播内容存在明显的差异,这对直播高光剪辑提出非常大的挑战,比如,如何定义不同垂类直播的高光时刻、如何识别不同垂类直播的高光片段、如何对不同垂类直播高光片段进行剪辑和创作、以及如何为不同主播的直播高光片段的质量进行分级等。针对这些挑战和问题,快手MMU团队利用音频、视觉、NLP和跨模态检索等多模态AI技术建设了一套直播高光智能成片解决方案,从高光识别到智能创作实现一站式全自动生成精美的高光短视频,覆盖快手秀场、游戏、电商等直播场景下近30个细分垂类直播。直播高光短视频可以让用户快速消费直播精彩瞬间,快手怎么上传长视频,有效为直播间进行引流,助力快手直播的有效传播和影响力的提升。

快手直播高光智能成片解决方案

直播高光时刻如何定义?

对于直播高光时刻,不同场景不同垂类直播的高光定义不同,如秀场直播,将直播中主播唱歌、跳舞、搞笑聊天、互动性好等直播片段定义为高光时刻;游戏直播,将游戏直播中的各种击杀事件(三杀、四杀、五杀等)、各种击杀程度(锋芒必露、横扫千军等)以及助攻死亡等定义为高光片段;电商直播,将带货直播中主播介绍商品的片段定义为高光片段。另外,根据不同垂类的特点还将进行多个高光片段的卡点混剪,形成高光集锦,如游戏直播,将多个击杀事件和击杀程度混剪成一个完整的精彩击杀集锦。

直播高光智能成片解决方案

解决方案技术框图如下所示:

直播垂类划分(分类)

利用语音、视觉和文字等多模态技术对直播进行分类处理,处理流程如下:

将直播进行切片,每分钟切成一个视频片段;

对每一个视频片段利用多模态算法划分成不同的垂类类别,如才艺、闲聊、游戏等垂类;

将每个片段的结果进行融合处理,修正直播间开播至当前时刻的垂类类别,直至直播结束,得到最终的直播垂类类别。

高光片段识别(粗裁)

如前面介绍,不同垂类直播的高光瞬间的定义不同,所以,针对不同垂类直播,分别利用不同的语音、视觉等多模态AI技术对直播内容进行理解分析,如才艺类直播则识别直播切片中是否在唱歌、跳舞等,语言类直播则识别是否有语音、有互动等,游戏类直播则识别击杀、助攻和死亡等,再根据直播垂类类别进行直播高光片段的粗裁聚合,将相同垂类且相邻的高光片段聚合在一起,形成各个垂类直播的粗裁高光片段。

高光视频剪辑(精裁)

由于主播的水平参差不齐,其唱功、表演水平也是有很大的差别,这里,我们对高光片段的表演水平、和粉丝互动、直播间的氛围进行评分,去除表演水平低、动作单一和互动差的片段。此外,还对视频的质量,如清晰度、直播环境等进行评分,保证精裁高光视频的质量和观感效果。

智能视频创作(智创)

为了生成精美的直播高光短视频,我们还利用AI技术对精裁片段进行智能编辑和创作,提升高光视频的质量和观感。针对精裁高光片段,我们从智能文字生成、智能音频生成、视觉创作、视频特效四个方面分别进行智能美化和渲染:

智能文字生成:即利用AI技术为高光视频自动添加标题和字幕,如对于唱歌高光视频,利用音乐识别和语音识别技术自动为其添加歌名和歌词作为标题和字幕;对其他垂类,则分别利用NLP智能标题技术和语音识别技术对高光视频添加标题和字幕

智能音频生成:即为高光视频智能添加配音和配乐,采用语音合成、智能配乐等音频生成技术,为高光视频进行智能配音,并根据视频内容智能配上不同风格和情感的背景音乐

视觉创作:利用AI技术进行混剪、音乐卡点以及转场特效处理生成高光视频集锦,同时根据音效检测添加视频贴纸

视频特效:针对不同垂类建设素材库、音乐库、特效库,然后利用AI技术对高光视频进行特效渲染,以及添加礼物特效,进一步提升视频的观感效果

直播高光智能成片效果

为了验证直播高光智能成片视频的效果,团队针对不同垂类直播的高光成片视频进行QA评测,评测结果显示各个垂类的高光成片视频的优质率达到95%以上。下面给出直播高光智能成片技术生成的短视频效果,分别为唱歌、舞蹈、乐器、戏曲和游戏垂类的直播高光瞬间。

唱歌垂类:

舞蹈垂类:

乐器垂类:

戏曲垂类:

游戏垂类:

总结

快手MMU自研的直播高光智能成片解决方案,利用AI技术对直播内容的高光瞬间进行识别,并智能生成精美的高光短视频。下面总结该技术方案的优势和业务落地。

高光智能成片的优势

是一套完备的一站式全自动化解决方案,涉及直播垂类分类、高光识别、高光剪辑、智能创作等一系列智能化处理过程

1、首先我们先打开手机,然后接着打开手机上安装的“快手直播伴侣”,接着我们打开直播上的“录视频”。 2、接着我们回到手机桌面,打开我们想要直播的小品所在视频软件,并且找到我们想要录制的视频。 3、当我们录制完。

高光识别与剪辑:采用多模态内容理解技术对直播进行分析,去除非高光片段或视频片段中的非高光成分,精准有效的剪辑出直播中的真正高光片段。

智能创作:对直播高光片段,进行智能编辑,涉及到智能封面、标题、自动字幕、智能配乐、智能贴纸、卡点混剪、转场等创作方式。而且,对不同垂类直播的高光视频还会进行个性化的特效渲染以及礼物特效,进一步提升高光视频的精致感。

覆盖的直播垂类广,支持各种直播场景的高光剪辑

才艺类直播:唱歌、跳舞、乐器演奏等

语言类直播:闲聊互动、电商直播、招聘直播等

科普教学类直播:义务教育、专业学科等教学

游戏类直播:王者荣耀、和平精英等游戏

延展性强,可快速拓展支持影视综、体育赛事以及长视频等的智能拆条和高光剪辑

高光智能成片的业务落地

高光视频为直播间进行引流,提升直播间的曝光和消费指标

ToB业务

目前该技术方案也考虑用于ToB业务,且高光成片效果得到客户的高度认可。

出处:

1、首先打开快手app然后选择【+】如下图所示:2、然后再选择【直播】如下图所示:3、然后再选择左上角的【视频】如下图所示:4、最后再选择开始视频直播即可,如下图所示: