喔卡科技吧 关注:11,067贴子:1,508

多模态技术在快手的应用与未来展望

只看楼主收藏回复

随着近年来深度学习、大算力、大数据快速发展,计算机视觉、语音识别等技术都取得了非常大的进展,综合了多种信息模态的多模态研究已成为一个新趋势。对于快手而言,多模态研究也是非常重要的课题。


1楼2019-03-22 14:37回复
    快手是一个记录和分享生活的短视频社交平台,通过人、内容及二者互动数据的理解,借助算法匹配推荐用户可能感兴趣的内容。一方面,视频可称是典型的多模态问题,综合了视觉、听觉、文本多种模态信息。


    2楼2019-03-22 14:38
    回复
      在视频的基础上,加上用户行为数据就是一种更加复杂的多模态问题。目前快手在多模态技术上的应用,一方面在于帮助用户更好地表达与记录,另一方面在于对视频内容的精准理解。


      3楼2019-03-22 14:38
      回复
        多模态技术帮助用户更好地表达与记录
        1、语音转文字打造便捷字幕生成体验


        4楼2019-03-22 14:38
        回复
          在视频中,对音频部分的理解是视频信息传递的重要部分。快手上有很多以语言讲述为核心的视频,需要大量匹配的字幕辅助观看。视频字幕制作其实是一件工作量很大的事情


          5楼2019-03-22 14:38
          回复
            一般需要在电脑前使用专业的编辑软件手动逐个输入文字。而如果通过语音识别技术,把语音直接转成文字,就可以很轻松地通过手机编辑生成一个带字幕的视频。


            6楼2019-03-22 14:39
            回复
              对视频进行语音转写时,面临以下的技术难点:首先,拍摄视频时,麦克风和说话者之间的距离比较远,语音信号因为传输距离远产生衰减,同时麦克风对环境噪声的抑制能力也会减弱,造成语音信号弱,背景噪声强的现象


              7楼2019-03-22 15:01
              回复
                其次,在房间内拍摄时,可能因墙壁对语音信号的反射造成混响;第三,快手的用户包括了全国各个区域,自然地包括了多样的口音;最后,短视频的内容种类丰富,表达方式随意,有些视频还有很强的韵律起伏。


                8楼2019-03-22 15:01
                回复
                  这些因素都会影响语音识别系统的准确率。快手针对这些问题,研发了语音质量检测、单通道混响消除、噪声掩蔽建模等多种技术,以及通过序列化建模方法提升多种口音的识别准确率。


                  9楼2019-03-22 15:01
                  回复
                    2、语音合成实现个性化配音
                    在视频配音方面,如果用户不喜欢男性配音,而希望实现女性配音的效果,就可以通过语音合成技术满足个性化的诉求。


                    10楼2019-03-22 15:02
                    回复
                      语音识别及合成技术都会使记录的过程变得更加便捷、有趣,但这两项技术在做视觉或者多媒体的圈子里面关注度不是特别高,在语音圈子里面,语音识别、语音合成也往往是两波人在做。


                      11楼2019-03-22 15:02
                      回复
                        随着深度学习技术的出现,语音识别和合成其实在某种程度上可以看做是非常对称的两个问题,因为语音识别是从语音到文字,语音合成是从文字到语音。


                        12楼2019-03-22 15:02
                        回复
                          语音识别,我们提取一些声学的特征,经过编码器或者 Attention 的机制,实现从语音到文字的转化;语音合成的技术和算法,其实也涉及编码器或者 Attention 的机制,二者形成了比较对称的网络。


                          13楼2019-03-22 15:02
                          回复
                            所以我们把语音识别和合成看成是一个模态转换的特例,从神经网络建模角度来看,是一个比较一致、容易解决的问题。快手的语音识别、语音合成技术原理图如下:


                            14楼2019-03-22 15:02
                            回复
                              3、根据视频内容自动生成音乐
                              音乐也是短视频非常重要的一部分,为一个场景匹配合适的音乐并非易事。过去,有不少用户在拍摄时为了与音乐节拍一致,努力配合音乐节奏拍摄,极大限制了拍摄的自由度。快手希望用户可以随意按照自己的方式录制视频,对用户拍摄的视频内容进行理解后,自动生成符合视频内容的音乐。


                              15楼2019-03-22 20:07
                              回复