专注金融科技与创新

专注金融科技与创新
专栏国内资讯金融信息服务

端到端语音合成技术及其在互金领域的应用

专栏国内资讯金融信息服务

端到端语音合成技术及其在互金领域的应用

本文共2007字,预计阅读时间40

总体介绍

我们基于tacotron-2架构进行改进,实现了支持多角色语音合成的端到端语音合成系统,并成功应用到互联网金融领域。

1. 语音合成技术发展简介

语音合成(Text To Speech, TTS)是指将任意输入文本转换为语音的技术。语音合成技术广泛应用于如语音导航、电话银行、语音翻译、电商语音客服、智能音箱等场景。

传统的语音合成系统包含前端与后端。前端负责对文本进行预处理,主要是对文本进行正则处理,分词,词性预测,多音字处理,韵律预测等。后端负责基于前端提供的语言学信息合成语音,主要有基于参数合成和基于单元挑选波形拼接的方法。传统的TTS技术复杂,需要有语音语言学方面的专业知识。

传统的基于参数合成方法,直接通过定义参数,模拟人的发声器官(唇、舌、声带、声道)来产生语音,优点是可以在较小的语料上建立一个语音合成系统,但是算法复杂,参数多,并且在压缩比较大时,信息丢失亦大,合成出的语音不够自然、清晰。

传统的基于单元选择和波形拼接方法,首先需要建立语音单元库,在合成阶段采用动态规划算法选出最优单元序列,再对选出的单元进行能量规整和波形拼接。拼接合成直接使用真实的语音片段,可以最大限度保留语音音质;缺点是需要根据应用领域建立一个较大的音频库,耗时耗力,同事无法保证领域外文本的合成效果。

近年来迅猛发展的端到端的语音合成技术,不需要掌握较深的语音语言学专业知识,降低了语音合成技术的门槛。

端到端的语音合成技术主要包含三个部分,编码器,解码器,声码器。首先编码器负责将输入的文本映射为一个特定维度的语义向量,然后解码器将这个语义向量解码为频谱特征(一般是线性频谱,梅尔频谱),最后声码器负责将频谱特征恢复出来波形。一般编码器和解码器都是基于深度学习的方法,声码器可以根据需要选择。从经验上讲,从0开始训练一个端到端的语音合成系统,需要一个人10小时以上的高质量录音。

2. 模型方案

端到端语音合成技术比较有代表性的有google团队的Tacotron以及之后的Tacotron2模型,百度提出的DeepVoice, DeepVoice2, DeepVoice3 模型。我们选择业界使用较多的Tacotron2,在此基础上进行改进。

Tacotron2模型中的声码器使用wave-net,实际应用中我们发现速度很慢,难以训练,因此,声码器我们改用griffin-lim方法。

另外,为了能够在同一个模型中获取多人的声音,我们对Tacotron2模型进行了两版改进尝试。第一版模型,我们将每个说话人编码为一个向量,加入到Tacotron2的解码器中,这样能够在同一个模型中合成多个人的声音。但是,如果后续需要新增一个说话人角色,会对已经训练好的角色效果产生影响。考虑到扩展性和稳定性,我们确定了第二版模型方案:使用改进的Tacotron2模型,用多人的音频语料训练一个base model,这个base model 的编码器有较好的泛化能力,如果需要新增说话人角色,可以用新角色的音频语料在base model 上进行 fine-tune。

最终我们实现了4个定制化的说话人角色,适合客服,贷后管理,电销等场景。 如果需要扩展角色语音,只需要提供该角色录制的2000句音频语料(2.6小时时长),即可训练出定制化的语音合成模型,合成该角色的任意语音。

图1 改进的Tacotron2 模型 红色箭头所示为改进

3. 自研语音合成技术在互联网金融领域的应用实例

以智能贷后管理中的会话场景为例,对于简单的贷后管理任务,人工管理耗时耗力。采用基于自动语音合成的智能会话方式,可以节省大量人工成本,同时可以有效控制会话内容,避免违规投诉。

早期方案:将贷后管理话术模板和变量先提前录制好,对话时根据需要答复的内容,将相应模板和变量的语音片段拼接成整段音频,播放给用户。这种方式每次模板扩展需要重新录音,工作量大,同时变量无法穷尽,拼接合成的语音不流畅,卡顿明显。

改进后方案:基于端到端的语音合成架构,某业务人员只需录制少量音频语料,即可训练出定制化语音合成模型,合成该业务人员的声音。话术模板可以随时调整生效,合成的语音自然流畅,符合场景特点,很好的解决了变量(日期,金额,人名等)播报效果差的典型问题。

下图为某真实贷后管理场景下,相同贷后管理话术上使用拼接语音与自研TTS效果对比。可以看到,在T+1至T+5的出催率上,自研TTS比拼接方式高 1.0%~1.5% 。

图2 TTS在某催收场景应用效果 

4. 专注于金融领域的语音合成服务

基于金融领域的实际场景,我们沉淀了大量金融领域知识和话术,并且积累了大量业务语音数据,这些都有利于我们更好的构建金融领域语音合成服务。

本文系未央网专栏作者天机风控发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!

用微信扫描可以分享至好友和朋友圈

扫描二维码或搜索微信号“iweiyangx”
关注未央网官方微信公众号,获取互联网金融领域前沿资讯。

发表评论

发表评论

您的评论提交后会进行审核,审核通过的留言会展示在下方留言区域,请耐心等待。

评论

您的个人信息不会被公开,请放心填写! 标记为的是必填项

取消

天机风控

11
总文章数

天机专业一站式风控服务平台,多年来持续深耕金融科技领域,沉...

[未央研究]本周互联网金融回顾 | 2019年第37周

未央研究 09-12

马老师的金融观:从「搅局者」到「解局者」

洪偌馨 09-11

[未央研究]本周互联网金融回顾 | 2019年第36周

未央研究 09-06

信贷科技是金融高质量发展的引擎

看懂君 09-06

第四届清华大学金融普及教育训练营成功举办

小未 09-04

版权所有 © 清华大学五道口金融学院互联网金融实验室 | 京ICP备17044750号-1