142019-12
百度语音公布四项重大技术
百度语音公布四项重大技术
众所周知,语音范畴Attention模型(注意力模型)的提出已有好几年的时刻了。注意力模型的中心思维,是经过机器学习的办法,把一句话中每个音节或许汉字的音频特征,从整句话的音频特征中,经过机器学习的办法,主动的发掘出来。这样建模进程,其实是在一句话的一段时刻长度是上百帧的接连音频流和十几个汉字辨认成果之间,建立了直接依据深度学习的直接映射联系。语音辨认进程,也变成了一个字一个字的翻滚生成进程。这样的建模彻底扔掉了传统语音辨认的状况建模和按语音帧进行解码等传统技能结构。直接完结了语音和文本一体化的端到端建模,然后公认的有更高的建模精度。
近几年,不少专家和学者都在语音辨认使命中尝试了注意力模型,实验室环境下,相对于传统技能,也取得到了一系列的提高。可是截止现在,注意力模型在在线语音效劳中的大规模运用,一向鲜有成功事例。究其原因,是因为语音辨认的注意力模型存在如下的两个问题:
1. 流式解码的问题。传统的Attention模型大都是依据整句的建模,比较有代表性的是谷歌的LAS模型。假如在线语音辨认选用整句Attention建模,这就客观上要求语音都上传到效劳器后,才干开端声学打分核算和解码,这样必然引进较长的用户等候时刻,影响用户体会,一起也没办法完结实时语音交互的使命。一些研究工作尽管可以完结流式注意力模型,也就是说可以一边上传语音,一边依据部分上传的语音片段,来核算注意力模型的得分(比方谷歌的Neural Transducer技能),然后得到部分的辨认成果。可是这些技能的模型精度都会低于整句的注意力模型,终究也影响用户体会。
2. 长句建模的精度下降问题。传统注意力模型的中心思维是依据整句的大局信息,经过机器学习的办法,挑选出和当时建模单元最匹配的特征。语句越长,进行特征挑选的难度越大。犯错的概率越高,过错前后传导的概率也越高。
依据以上两个要素,工业界需求一种全新的注意力模型,可以跟着语音数据的流式的上传,完结流式的注意力建模和解码,然后削减用户等候辨认成果的时刻,使得实时的在线语音交互成为或许。一起跟着输入语音数据的不断的加长,可以对接连语音流进行切断,确保注意力模型愈加聚集,提高长句语音辨认的建模的精度。
百度在业界第一次立异性的提出了流式多级的切断注意力模型SMLTA,这是全国际范围内,第一次依据Attention技能的在线语音辨认效劳的大规模上线。也是百度AI技能的工业落地,领跑全职业的重要例子。这项技能的四大立异点在于:切断、流式、多级、依据CTC &Attention。
详细而言,是运用CTC(一种语音辨认算法)的尖峰信息对接连语音流进行切断,然后在每一个切断的语音小段进步行当时建模单元的注意力建模。这样把本来的大局的整句Attention建模,变成了部分语音小段的Attention的建模。一起,为了战胜CTC模型的不可避免的刺进删去过错对体系形成的影响,该算法引进一种特别的多级Attention机制,完结特征层层递进的更精准的特征挑选。终究,这种立异的建模办法的辨认率不光逾越了传统的大局Attention建模,一起还可以坚持核算量、解码速度等在线资源消耗和传统CTC模型相等。这也是第一次有揭露报导,部分的Attention建模,有或许超越大局的Attention建模。
百度已成功将这种注意力模型布置上线到语音输入法全线产品,效劳我国数亿用户。这是国际范围内已知的第一次大规模布置的用于在线语音输入的注意力模型。在工程上,完结了低成本上线,一切核算悉数经过CPU完结,不需求额定添加GPU,机器的消耗和传统CTC模型适当。最终在输入法精度上,很多数据测试成果显现,相对于原有的Deep peak2的CTC体系,相对预备率提高了15%。
高性能、低功耗,百度这次推出的流式多级的切断注意力模型SMLTA,无疑是中文在线语音辨认历史上的又一次打破。
除在线语音范畴以外,百度的语音技能还在离线语音、中英混合输入、普通话方言混合输入方面取得了打破。现在百度输入法离线语音输入准确率已高于职业平均水平35%,确保你在没网的情况下完结输入法的流通快速运用。技能立异还使得百度输入法「中英自在说」成为在彻底不影响中文语音输入准确率的情况下,仅有完结高精准的中英文混合语音识输入。「方言自在说」还将普通话和六大方言融组成一个语音辨认模型,不单普通话和方言之间不再需求切换,方言和方言之间也不必再切换,随时随地,想咋说咋说。
自2012年以来,百度语音辨认技能一向在该范畴不断深入探究、立异打破。不单是完结辨认准确率的提高,其技能途径的挑选亦在引领职业。上一年也是在输入法发布会上,百度语音发布的Deep Peak 2模型打破了沿袭十几年的传统模型,可以更充分地发挥神经网络模型的参数优势,大幅提高各场景下辨认准确率。时隔一年,百度语音技能团队再次完结严重技能立异。