网页
资讯
视频
图片
知道
文库
贴吧
地图
采购
进入贴吧
全吧搜索
吧内搜索
搜贴
搜人
进吧
搜标签
日
一
二
三
四
五
六
签到排名:今日本吧第
个签到,
本吧因你更精彩,明天继续来努力!
本吧签到人数:0
一键签到
可签
7
级以上的吧
50
个
一键签到
本月漏签
0
次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行
补签
。
连续签到:
天 累计签到:
天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
06月07日
漏签
0
天
喔卡科技吧
关注:
11,067
贴子:
1,508
看贴
图片
吧主推荐
游戏
1
2
3
下一页
尾页
42
回复贴,共
3
页
,跳到
页
确定
<返回喔卡科技吧
>0< 加载中...
多模态技术在快手的应用与未来展望
只看楼主
收藏
回复
萝莉美媚
知名人士
11
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
随着近年来深度学习、大算力、大数据快速发展,计算机视觉、语音识别等技术都取得了非常大的进展,综合了多种信息模态的多模态研究已成为一个新趋势。对于快手而言,多模态研究也是非常重要的课题。
送TA礼物
1楼
2019-03-22 14:37
回复
萝莉美媚
知名人士
11
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
快手是一个记录和分享生活的短视频社交平台,通过人、内容及二者互动数据的理解,借助算法匹配推荐用户可能感兴趣的内容。一方面,视频可称是典型的多模态问题,综合了视觉、听觉、文本多种模态信息。
2楼
2019-03-22 14:38
回复
收起回复
萝莉美媚
知名人士
11
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
在视频的基础上,加上用户行为数据就是一种更加复杂的多模态问题。目前快手在多模态技术上的应用,一方面在于帮助用户更好地表达与记录,另一方面在于对视频内容的精准理解。
3楼
2019-03-22 14:38
回复
收起回复
萝莉美媚
知名人士
11
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
多模态技术帮助用户更好地表达与记录
1、语音转文字打造便捷字幕生成体验
4楼
2019-03-22 14:38
回复
收起回复
萝莉美媚
知名人士
11
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
在视频中,对音频部分的理解是视频信息传递的重要部分。快手上有很多以语言讲述为核心的视频,需要大量匹配的字幕辅助观看。视频字幕制作其实是一件工作量很大的事情
5楼
2019-03-22 14:38
回复
收起回复
萝莉美媚
知名人士
11
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
一般需要在电脑前使用专业的编辑软件手动逐个输入文字。而如果通过语音识别技术,把语音直接转成文字,就可以很轻松地通过手机编辑生成一个带字幕的视频。
6楼
2019-03-22 14:39
回复
收起回复
萝莉美媚
知名人士
11
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
对视频进行语音转写时,面临以下的技术难点:首先,拍摄视频时,麦克风和说话者之间的距离比较远,语音信号因为传输距离远产生衰减,同时麦克风对环境噪声的抑制能力也会减弱,造成语音信号弱,背景噪声强的现象
7楼
2019-03-22 15:01
回复
收起回复
萝莉美媚
知名人士
11
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
其次,在房间内拍摄时,可能因墙壁对语音信号的反射造成混响;第三,快手的用户包括了全国各个区域,自然地包括了多样的口音;最后,短视频的内容种类丰富,表达方式随意,有些视频还有很强的韵律起伏。
8楼
2019-03-22 15:01
回复
收起回复
萝莉美媚
知名人士
11
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
这些因素都会影响语音识别系统的准确率。快手针对这些问题,研发了语音质量检测、单通道混响消除、噪声掩蔽建模等多种技术,以及通过序列化建模方法提升多种口音的识别准确率。
9楼
2019-03-22 15:01
回复
收起回复
萝莉美媚
知名人士
11
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
2、语音合成实现个性化配音
在视频配音方面,如果用户不喜欢男性配音,而希望实现女性配音的效果,就可以通过语音合成技术满足个性化的诉求。
10楼
2019-03-22 15:02
回复
收起回复
萝莉美媚
知名人士
11
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
语音识别及合成技术都会使记录的过程变得更加便捷、有趣,但这两项技术在做视觉或者多媒体的圈子里面关注度不是特别高,在语音圈子里面,语音识别、语音合成也往往是两波人在做。
11楼
2019-03-22 15:02
回复
收起回复
萝莉美媚
知名人士
11
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
随着深度学习技术的出现,语音识别和合成其实在某种程度上可以看做是非常对称的两个问题,因为语音识别是从语音到文字,语音合成是从文字到语音。
12楼
2019-03-22 15:02
回复
收起回复
萝莉美媚
知名人士
11
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
语音识别,我们提取一些声学的特征,经过编码器或者 Attention 的机制,实现从语音到文字的转化;语音合成的技术和算法,其实也涉及编码器或者 Attention 的机制,二者形成了比较对称的网络。
13楼
2019-03-22 15:02
回复
收起回复
萝莉美媚
知名人士
11
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
所以我们把语音识别和合成看成是一个模态转换的特例,从神经网络建模角度来看,是一个比较一致、容易解决的问题。快手的语音识别、语音合成技术原理图如下:
14楼
2019-03-22 15:02
回复
收起回复
萝莉美媚
知名人士
11
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
3、根据视频内容自动生成音乐
音乐也是短视频非常重要的一部分,为一个场景匹配合适的音乐并非易事。过去,有不少用户在拍摄时为了与音乐节拍一致,努力配合音乐节奏拍摄,极大限制了拍摄的自由度。快手希望用户可以随意按照自己的方式录制视频,对用户拍摄的视频内容进行理解后,自动生成符合视频内容的音乐。
15楼
2019-03-22 20:07
回复
收起回复
登录百度账号
扫二维码下载贴吧客户端
下载贴吧APP
看高清直播、视频!
贴吧热议榜
1
国足1比1战平泰国队
2612820
2
8u在高中的最后一天
2556988
3
高考倒计时1天
2246356
4
BLG2-0轻取RNG
1577367
5
红领巾新系法引争议
1414062
6
买黑神话选Steam还是WeGame
1138550
7
我在剑网3当萌新
1032936
8
电锯人167话 逆天剧情
778182
9
崩坏星穹铁道椒丘立绘公布
742654
10
乒乓球女队征战成绩册
641067
贴吧页面意见反馈
违规贴吧举报反馈通道
贴吧违规信息处理公示