端到端语音合成技术及其在互金领域的应用

扫描分享

本文共字，预计阅读时间。

总体介绍

我们基于tacotron-2架构进行改进，实现了支持多角色语音合成的端到端语音合成系统，并成功应用到互联网金融领域。

1. 语音合成技术发展简介

语音合成（Text To Speech, TTS）是指将任意输入文本转换为语音的技术。语音合成技术广泛应用于如语音导航、电话银行、语音翻译、电商语音客服、智能音箱等场景。

传统的语音合成系统包含前端与后端。前端负责对文本进行预处理，主要是对文本进行正则处理，分词，词性预测，多音字处理，韵律预测等。后端负责基于前端提供的语言学信息合成语音，主要有基于参数合成和基于单元挑选波形拼接的方法。传统的TTS技术复杂，需要有语音语言学方面的专业知识。

传统的基于参数合成方法，直接通过定义参数，模拟人的发声器官（唇、舌、声带、声道）来产生语音，优点是可以在较小的语料上建立一个语音合成系统，但是算法复杂，参数多，并且在压缩比较大时，信息丢失亦大，合成出的语音不够自然、清晰。

传统的基于单元选择和波形拼接方法，首先需要建立语音单元库，在合成阶段采用动态规划算法选出最优单元序列，再对选出的单元进行能量规整和波形拼接。拼接合成直接使用真实的语音片段，可以最大限度保留语音音质；缺点是需要根据应用领域建立一个较大的音频库，耗时耗力，同事无法保证领域外文本的合成效果。

近年来迅猛发展的端到端的语音合成技术，不需要掌握较深的语音语言学专业知识，降低了语音合成技术的门槛。

端到端的语音合成技术主要包含三个部分，编码器，解码器，声码器。首先编码器负责将输入的文本映射为一个特定维度的语义向量，然后解码器将这个语义向量解码为频谱特征（一般是线性频谱，梅尔频谱），最后声码器负责将频谱特征恢复出来波形。一般编码器和解码器都是基于深度学习的方法，声码器可以根据需要选择。从经验上讲，从0开始训练一个端到端的语音合成系统，需要一个人10小时以上的高质量录音。

2. 模型方案

端到端语音合成技术比较有代表性的有google团队的Tacotron以及之后的Tacotron2模型，百度提出的DeepVoice, DeepVoice2, DeepVoice3 模型。我们选择业界使用较多的Tacotron2，在此基础上进行改进。

Tacotron2模型中的声码器使用wave-net，实际应用中我们发现速度很慢，难以训练，因此，声码器我们改用griffin-lim方法。

另外，为了能够在同一个模型中获取多人的声音，我们对Tacotron2模型进行了两版改进尝试。第一版模型，我们将每个说话人编码为一个向量，加入到Tacotron2的解码器中，这样能够在同一个模型中合成多个人的声音。但是，如果后续需要新增一个说话人角色，会对已经训练好的角色效果产生影响。考虑到扩展性和稳定性，我们确定了第二版模型方案：使用改进的Tacotron2模型，用多人的音频语料训练一个base model，这个base model 的编码器有较好的泛化能力，如果需要新增说话人角色，可以用新角色的音频语料在base model 上进行 fine-tune。

最终我们实现了4个定制化的说话人角色，适合客服，贷后管理，电销等场景。 如果需要扩展角色语音，只需要提供该角色录制的2000句音频语料（2.6小时时长），即可训练出定制化的语音合成模型，合成该角色的任意语音。

图1 改进的Tacotron2 模型红色箭头所示为改进

3. 自研语音合成技术在互联网金融领域的应用实例

以智能贷后管理中的会话场景为例，对于简单的贷后管理任务，人工管理耗时耗力。采用基于自动语音合成的智能会话方式，可以节省大量人工成本，同时可以有效控制会话内容，避免违规投诉。

早期方案：将贷后管理话术模板和变量先提前录制好，对话时根据需要答复的内容，将相应模板和变量的语音片段拼接成整段音频，播放给用户。这种方式每次模板扩展需要重新录音，工作量大，同时变量无法穷尽，拼接合成的语音不流畅，卡顿明显。

改进后方案：基于端到端的语音合成架构，某业务人员只需录制少量音频语料，即可训练出定制化语音合成模型，合成该业务人员的声音。话术模板可以随时调整生效，合成的语音自然流畅，符合场景特点，很好的解决了变量（日期，金额，人名等）播报效果差的典型问题。

下图为某真实贷后管理场景下，相同贷后管理话术上使用拼接语音与自研TTS效果对比。可以看到，在T+1至T+5的出催率上，自研TTS比拼接方式高 1.0%~1.5% 。

图2 TTS在某催收场景应用效果

4. 专注于金融领域的语音合成服务

基于金融领域的实际场景，我们沉淀了大量金融领域知识和话术，并且积累了大量业务语音数据，这些都有利于我们更好的构建金融领域语音合成服务。

[Source]

本文系未央网专栏作者发表，属作者个人观点，不代表网站观点，未经许可严禁转载，违者必究！首图来自图虫创意。

本文为作者授权未央网发表，属作者个人观点，不代表网站观点，未经许可严禁转载，违者必究！首图来自图虫创意。

本文版权归原作者所有，如有侵权，请联系删除。首图来自图虫创意。