强烈建议你试试无所不能的chatGPT，快点击我

《A VOCODER-FREE WAVENET VOICE CONVERSION WITH NON-PARALLEL DATA》论文笔记

阅读量：2159 次

发布时间：2019-05-01

本文共 2089 字，大约阅读时间需要 6 分钟。

目录

Abstract

本文提出一种自由使用声码器的语音转换方案，该方案使用WaveNet和非平行语料进行训练，使用WaveNet将 Phonetic Posterior Grams(PPG)直接映射到波形样本，以此来代替中间特征的处理。这样，我们避免了由声码器和特征转换引起的估计误差。此外，由于PPG被假定为与说话者无关，因此所提出的方法还减少了基于WaveNet声码器的方法中的特征不匹配问题。

1 Introduction

存在的问题：
使用传统的参数声码器，在语音特征提取和语音合成阶段会产生伪相，即明显人工合成的声音。WaveNet能够合成高质量的语音，但会产生生成语音与输入特征错误匹配的情况，这会导致合成的语音中有噪音的情况。

解决方案：
提出一种使用WaveNet在非平行语料条件下的无声码器的语音转换方法。该方法首先将语音信号编码为说话人独立(speaker independent ,SI)的特征表示,如PPG特征。之后训练WaveNet以SI为条件生成相应的时域信号。在运行时，给定语音提取的相同SI特征用于驱动WaveNet生成转换后的语音。

创新点：
1.在不使用参数声码器的条件下，提出的方法防止了特征与生成语音的错误匹配
2.绕过转换的中间声码器功能，所提出的方法进一步减少了WaveNet声码器最近提出的VC技术。

2 Voice Conversion With WaveNet

2.1 WaveNet Vocoder

WaveNet声码器能够将传统声码器提取的特征(非周期性特征、频谱特征、基频特征)重建为对应的时域特征。给定波形序列 $x=[x_0,x_1,...,x_T]$ ,附加本地输入条件 $\bm{h}$ ，WaveNet声码器可以对条件分布 $p(x|\bm{h})$ 进行建模：

p(x|\bm{h}) = \prod_{t=1}^Tp(x_t|x_1,x_2,...,x_t;\bm{h})

为了建立长范围时间独立的语音特征，使用因果卷积和空洞卷积。第i层的残差块，门限激活函数可以如下表示

在这里插入图片描述

2.2 The Limitations

在这里插入图片描述

(a)为转换模块的训练过程，采用平行语料进行GMM语音转换模型的训练，(b)为声码器的训练过程，（c）为转换过程。

但是由于转换后的特征与声码器训练时所有的特征有很大的不同，因此会造成合成的语音存在噪声、错读等很多问题。

3 WaveNet Approach To Voice Conversion

本文研究了使用PPG作为WaveNet的本地条件输入进行无声码器语音转换的有效性，所提出的方法不依赖中间特征来进行说话者身份的转换。同时由于PPG特征时独立于说话人的，所以能够减少WaveNet声码器特征与合成出的声音不匹配的问题

在这里插入图片描述

给定目标说话人的音频，提取PPGs

L\in R^{D\times N}

，其中

D

为特征维度，

N

为帧数。

f_0

和vuv特征也被提取，其中

F0\in R^{1\times N}

F_{vuv} \in R^{1\times N}

。为了便于WaveNet训练，扩展了PPG，f0和vuv以匹配时域信号的时间分辨率，表示为

在这里插入图片描述

然后计算上面WaveNet公式中所提到的

h =

在这里插入图片描述

除此之外还要对

f 0

进行线性变换，

在这里插入图片描述

其中

\mu_x

和

\sigma_x

分别为源说话人f0的均值和方差，

\mu_y

和

\sigma_y

分别为目标说话人f0的均值和方差，

\widehat{f0_y}

为转换后的目标说话人的f0。之后在使用WaveNet进行合成

4 Experimental Setup

数据集使用CMU-ARCTIC（2男2女，每人使用500句训练，使用20句进行评估）。使用WORLD声码器提取513为频谱特征，1维AP和1维F0，40维的PGG使用WSJ训练后提取。所有音频的采样率为16khz。

实验结果：

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

5 Conclusion

本文提出了一种使用WaveNet的非并行数据的无声码器语音转换方法。所提出的方法不依赖声码器特征进行转换，这减少了基于WaveNet声码器的方法中的特征失配问题。实验结果表明，在保持说话人身份的同时，WaveNet-VC在质量方面明显优于基线方法。

论文地址：https://arxiv.org/abs/1902.03705

转载地址：http://xkgwb.baihongyu.com/

你可能感兴趣的文章

为什么要用交叉验证

用学习曲线 learning curve 来判别过拟合问题

用验证曲线 validation curve 选择超参数

用 Grid Search 对 SVM 进行调参

用 Pipeline 将训练集参数重复应用到测试集

PCA 的数学原理和可视化效果

机器学习中常用评估指标汇总

什么是 ROC AUC

详解 Stacking 的 python 实现

简述极大似然估计

用线性判别分析 LDA 降维

用 Doc2Vec 得到文档／段落／句子的向量表达

使聊天机器人具有个性

使聊天机器人的对话更有营养

一个 tflearn 情感分析小例子

attention 机制入门

手把手用 IntelliJ IDEA 和 SBT 创建 scala 项目

GAN 的 keras 实现

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-05-19 02:56:36 当前IP: 18.222.68.81 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我