多模态技术在快手的应用与未来展望【喔卡科技吧】

06月07日漏签0天

喔卡科技吧关注：11,067贴子：1,508

1 2 3 下一页尾页
42回复贴，共3页
，跳到页

<返回喔卡科技吧

多模态技术在快手的应用与未来展望

只看楼主收藏回复

随着近年来深度学习、大算力、大数据快速发展，计算机视觉、语音识别等技术都取得了非常大的进展，综合了多种信息模态的多模态研究已成为一个新趋势。对于快手而言，多模态研究也是非常重要的课题。

送TA礼物

1楼2019-03-22 14:37回复

快手是一个记录和分享生活的短视频社交平台，通过人、内容及二者互动数据的理解，借助算法匹配推荐用户可能感兴趣的内容。一方面，视频可称是典型的多模态问题，综合了视觉、听觉、文本多种模态信息。

2楼2019-03-22 14:38

在视频的基础上，加上用户行为数据就是一种更加复杂的多模态问题。目前快手在多模态技术上的应用，一方面在于帮助用户更好地表达与记录，另一方面在于对视频内容的精准理解。

3楼2019-03-22 14:38

多模态技术帮助用户更好地表达与记录
1、语音转文字打造便捷字幕生成体验

4楼2019-03-22 14:38

在视频中，对音频部分的理解是视频信息传递的重要部分。快手上有很多以语言讲述为核心的视频，需要大量匹配的字幕辅助观看。视频字幕制作其实是一件工作量很大的事情

5楼2019-03-22 14:38

一般需要在电脑前使用专业的编辑软件手动逐个输入文字。而如果通过语音识别技术，把语音直接转成文字，就可以很轻松地通过手机编辑生成一个带字幕的视频。

6楼2019-03-22 14:39

对视频进行语音转写时，面临以下的技术难点：首先，拍摄视频时，麦克风和说话者之间的距离比较远，语音信号因为传输距离远产生衰减，同时麦克风对环境噪声的抑制能力也会减弱，造成语音信号弱，背景噪声强的现象

7楼2019-03-22 15:01

其次，在房间内拍摄时，可能因墙壁对语音信号的反射造成混响；第三，快手的用户包括了全国各个区域，自然地包括了多样的口音；最后，短视频的内容种类丰富，表达方式随意，有些视频还有很强的韵律起伏。

8楼2019-03-22 15:01

这些因素都会影响语音识别系统的准确率。快手针对这些问题，研发了语音质量检测、单通道混响消除、噪声掩蔽建模等多种技术，以及通过序列化建模方法提升多种口音的识别准确率。

9楼2019-03-22 15:01

2、语音合成实现个性化配音
在视频配音方面，如果用户不喜欢男性配音，而希望实现女性配音的效果，就可以通过语音合成技术满足个性化的诉求。

10楼2019-03-22 15:02

语音识别及合成技术都会使记录的过程变得更加便捷、有趣，但这两项技术在做视觉或者多媒体的圈子里面关注度不是特别高，在语音圈子里面，语音识别、语音合成也往往是两波人在做。

11楼2019-03-22 15:02

随着深度学习技术的出现，语音识别和合成其实在某种程度上可以看做是非常对称的两个问题，因为语音识别是从语音到文字，语音合成是从文字到语音。

12楼2019-03-22 15:02

语音识别，我们提取一些声学的特征，经过编码器或者 Attention 的机制，实现从语音到文字的转化；语音合成的技术和算法，其实也涉及编码器或者 Attention 的机制，二者形成了比较对称的网络。

13楼2019-03-22 15:02

所以我们把语音识别和合成看成是一个模态转换的特例，从神经网络建模角度来看，是一个比较一致、容易解决的问题。快手的语音识别、语音合成技术原理图如下：

14楼2019-03-22 15:02

3、根据视频内容自动生成音乐
音乐也是短视频非常重要的一部分，为一个场景匹配合适的音乐并非易事。过去，有不少用户在拍摄时为了与音乐节拍一致，努力配合音乐节奏拍摄，极大限制了拍摄的自由度。快手希望用户可以随意按照自己的方式录制视频，对用户拍摄的视频内容进行理解后，自动生成符合视频内容的音乐。

15楼2019-03-22 20:07

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧热议榜

1 2 3 下一页尾页
42回复贴，共3页
，跳到页

<返回喔卡科技吧

发表回复

发贴请遵守贴吧协议及“七条底线”贴吧投诉

内容:

使用签名档查看全部

发表

保存至快速回贴

日	一	二	三	四	五	六

多模态技术在快手的应用与未来展望

登录百度账号

扫二维码下载贴吧客户端