使用潜在狄利克雷分解的单声道说话人分离

上传人：lis****210 文档编号：174638137 上传时间：2022-12-16 格式：DOCX 页数：4 大小：17.27KB

收藏版权申诉举报下载

第1页 / 共4页

第2页 / 共4页

第3页 / 共4页

下载文档到电脑，查找使用更方便

10 积分

下载资源

资源描述：

《使用潜在狄利克雷分解的单声道说话人分离》由会员分享，可在线阅读，更多相关《使用潜在狄利克雷分解的单声道说话人分离（4页珍藏版）》请在装配图网上搜索。

1、使用潜在狄利克雷分解的单声道说话人分离摘要：我们提出了一种使用声谱图的潜在变量分解算法，来从混合的单声道录音里分离出多个说话人。我们将语音信号短时傅立叶变换的每一个幅度谱分量建模成一个离散随机过程的输出。这个离散随机过程产生一系列频率分辨率分量。这个过程被建模成混合多项式分布，这些分量多项式的混合权重在不同的分析窗间变化。这些分量多项式可以认为是属于特定说话人的，而且可以通过对每一个说话人训练信号来得到。我们把每一个说话人的混合权重的先验分布建模成一个狄利克雷分布。代表混合信号幅度谱分量的分布被分解成所有单个说话人多项式分布的混合。通过这种分解，频率分布，或者说每一个说话人的语音

2、频谱将得到重建。1、简介对于单声道说话人的分离问题，比如说从有几个人说话的单声道录音里分离出当前说话人的问题，历史上一直是考虑从频率选择的角度来解决的。为了分离出每一个说话人的语音信号，需要从不完整的视频序列里，重建出混合信号中的受说话人控制的时频分量。对说话人的时频分量的选择在实际中可能是基于感知原理的（如文献【1】），或者是基于统计模型的（如文献【2】），也可能是基于二进制或者概率性的（如文献【3】）。在这篇论文中，我们采用了一种可变的方法，试图为每一个说话人重建全部的频谱，而不是得到部分的频谱描述。特别地，在这种方法中，对每一个说话人，典型的短时谱结构，或者说短时基，从训

3、练数据中学习的到。混合信号被分解成这些短时基的线性组合。单个说话人的信号通过以适当的权值重新组合它们的短时基而被分离。 Jang etal （文献【4】）通过对每一个说话人信号的独立分量的到他们的短时基。 Smaragdis （文献【5】）则是通过说话人幅度谱的非负矩阵分解得到的。其他人通过适量量化，高斯混合分布模型等方法得到。这篇论文中的算法通过对幅度谱的潜在变量分解识别出说话人的典型频谱结构。最初由 Raj etal 提出的这种分离说话人的潜在变量模型，基于这样的假设：语音的频谱分量是一个产生一系列频率分辨率分量的离散随机过程的输出。语音信号的每一帧这个过程的几个轮廓。这些帧的

4、幅度谱代表这些轮廓的阶梯柱状图。这个随机过程本身的分布被建模成一个混合多项式分布。这些混合权重被设想从一帧到另一帧发生变化，而具有说话人特性的分量多项式则被设想在各帧中保持不变。在这种帧结构中，分量多项式可以被看作说话人可以产生的基础模型，或者基。每一个分析窗的频谱幅度是这些基的带噪线性组合。在 Raj etal 最初的模式中，所有的线性组合被认为是一个前提，也就是说任何有效的混合权重集合是和任何其它的权重集相同的。在这篇论文中，我们认为说话人之间有偏差：他们更喜欢表达一些不同于其他人的声音。我们可以通过混合权重的先验概率来捕获这些偏差，而混合权重是我们建模狄利克雷密度得到的。

5、在每一帧中组合得到的分量多项式的权重是从这个密度中得到的。多项式的参数和狄利克雷密度对每一个说话人的混合语音使用EM算法训练得到的。所以这个算法是受控算法，因此说话人的身份和他们语音分布的参数必须预先得到。一个混合信号的频谱被建模成一个二维随机过程的持续轮廓输出。在每一个轮廓中，这个过程首先画出混合语音中的一个说话人，然后一个特定的多项式，最后得到多项式的一个频率指数。为了从每一个分析帧中分离出每一个说话人的频谱，我们在基于从训练数据中得到的权重和说话人特有的多项式分量分布，对每一个说话人的混合权重采用最大后验概率估计。作为混合多项式分布中的每一个频率指数，最终从每一帧中分离出

6、了说话人频谱。论文的其余部分按如下组织：在第二部分，我们简要得描述了幅度谱使用的潜在变量多项式分布。在第三部分，我们描述了学习算法，这些算法包括用来训练得到说话人的多项式分量分布的算法和分离混合信号的算法。第四部分，我们列出了一些实验数据。最后在第五章，我们讨论了这篇论文的结果和可能的外延。2、潜在狄利克雷变量模型一开始，我们假定所有的语音信号通过一个都市傅立叶变换转化成幅度谱矢量序列。在后面的讨论中，频率就是指这些频谱矢量中的频谱。潜在狄利克雷变量模型是潜在狄利克雷配置（文献【7】）改编得到的派生模型。图 1.单一潜在狄利克雷变量模型图。在图中，一个三角形代表一个单一结构，每一个角

7、代表一个分量多项式，每一个单一结构中的点代表一帧语音频谱的混合多项式模型。图（a）和图（b）显示了连个说话人单一结构相同而分布不同的情况。图（C）显示了混合信号的模型，其中，每一个内三角形与一个不同的说话人相关，外围的五边形代表混合信号的分布。模型假设一个语音信号的每一个频谱矢量是一个产生频率分辨分量的离散随机过程的几个轮廓。每一个谱矢量的产生过程可以描述如下：令e为k维狄利克雷变量，e从k-i个单一结构中取值，并且具有如下得到概率分布：公式（1）从由e定义混合权重的混合多项式中产生几个轮廓取变量z,从1,2,叮中取值。从由e定义的概率分布中产生z的一个值，也就是：公式（ 2）

8、令B为描述频率概率的KXF矩阵，其中F是FFT中的离散频率数，矩阵的第i， j个分量B i，j是当隐藏变量Z取i值时，画图频率j的概率，也就是：公式（ 3）通过B矩阵的第K行给出的多项式分布产生频率的一个值，这里的K是上一步中 z 产生的值。因此，语音信号给定一帧的总体混合多项式分布可以写成如下表达式：公式（ 4）式中e s具有参数矢量a s的先验狄利克雷分布，上标s表示该项是与特定说话人相关的。方程（4）代表一个多项式分布，该分布的参数完全存在于一个单一结构体中，而这个单一结构体的角由构成B的列的分量多项式确定。这种情况可以有图1 （a）来说明：三角形的每一个角代表一个分量多项式，单一

9、结构体内的每一个点代表语音信号一帧频谱的混合多项式模型。单一结构体和它之中的点都是由特定说话人确定的。特别地，即使说话人的单一结构体非常的相似，它们之中点的分布也可以区分出不同的说话人，因为不同的说话人倾向于一些特殊的发音偏好，而这些偏好会在单一结构体中表现为一些分散的点。这可以在图1 （b）中进行说明，图1 （b）显示了不同说话人的单一结构体。这个单一结构体与图1 （a）中只有其中的点的分布不同。Raj etal的潜在变量模型忽略了单一结构体点的分布，因而不能区分出两个样本。在这篇论文中提出的狄利克雷变量模型，从另一方面建模了以e为参数的狄利克雷分布的单一结构体中点的分布，因

10、此可以区分出这两种情况。混合语音信号频谱的潜在狄利克雷变量模型有一个附加的结构层。即频谱内容的一段需要从每个说话人预先获取。因此，初始的潜在变量s需要先选择一个说话人，然后从这个特定说话人的人生成模型中选择一个频率。谱矢量的总体分布游侠是给出：公式（ 5）其中，P（S）是第s个说话人的先验概率。图1 （C）说明了混合语音信号频谱的模型。每一个三角形代表一个不同的说话人的单一结构体（用不同的颜色来区分）。外围的单一结构体显示了混合信号的分布。外围的单一结构体的点代表一个混合谱。比如，单一结构体中的蓝色点。这是一个两点的线性组合，其中一点落在说话人单一结构体的内部（用虚线段和线的终点表

11、示）。分离的目的是在给定的单位化线段上确认出终点。这一过程在很大程度上依赖于事先知道：说话人的单一结构体中点的先验分布。3、单声道说话人分离算法包含一个学习阶段和分离阶段，在学习阶段，每个说话人的分量多项式分布被学习训练；在分离阶段，已经学习得到的参数被用来分离语音信号。3.1 为说话人训练参数在学习阶段，多项式分布B s和狄利克雷参数矢量a s将被从说话人的一组训练录音里学习得到。令Of, t代表第t个谱矢量的第f个频带，0 k，t代表被用来估计第t个谱矢量的e k的值。因为这些频谱在模型中是柱状的，所以每一个谱分量一定是一个整数。为了解释这个现象，我们认为被观测的谱实际上是有刻

12、度的柱状图。可是，未知的刻度因子不影响问题的分析，因为它们在方程(7)和(8)中对分子和分母的影响是相同的。公式(6)公式(7)公式(8)原来被用来估计所有时帧的0值接着被用来估计说话人狄利克雷参数矢量a。狄利克雷分布的最大似然估计的封闭形式不可能得到。因此，我们使用迭代算法来获得a的估计值，从文献【8】可以看到详细的说明。图2 显示了从女说话人和男说话人学习得到典型B szf分布的几个例子。图2图 2，左边的三幅柱状图显示了从女说话人获取的典型分量多项式分布。右边的三幅则是相应的男说话人的情形。3.1从混合信号中分离出说话人从一个混合信号中分离出说话人的过程包含两个阶段。对第t个

13、分析帧的参数Pt (S) 和0 szt通过以下的方程迭代得到这些方程从EM算法中得到。方程( 9)方程( 10)方程( 11)注意到方程11中有一个未知参数C,我们从经验得到一个C值，使得第一阶的Pt (s, z|f). Of，tC和(a sz-1)的值达到平衡，并且两者都不会干扰结果。一旦所有阶的值都被估计得到，第s个说话人的第t个分析帧混合多项式分布如下所示：公式(12) 根据模型，任何频率轮廓的综合所就是单个说话人分布的轮廓的和，也就是如下公式：公式(13)其中，Of, t (s)是从第s个说话人的f轮廓的数目，在总数一定的情况下，它的期望值由下式给出：公式(14)Of，t (s)

14、是在第t帧中的第s个说话人的第f个频谱分量。F和t取所有值后得到Of，t (s)的集合组成说话人谱矢量的一个完整序列。重建过程还要联合分析短时傅立叶变化的相位，最后经过一个傅立叶反变换得到说话人的时域信号。4、实验评估图3图 3 分离算法的例子在例子中，两个说话人都说了同样的话，左侧的频谱图是一名女性说话人的结果，右侧的则是男性说话人的情况（第一行显示了混合在一起的情况）。实验通过将男女说话人的语音混合在一起来评估说话人分离的性能。一组从TIMIT 数据库获得的持续十五秒的五个词被用来作为每一个说话人的训练数据。为了信号电平的统一，所有的信号的均值归零，方差归一化。信号被分解成64m

15、s的窗，窗之间有32ms重叠。谱矢量被100个多项好似分布的混合建模。因此，一组100个多项式分布从训练数据中被学习。混合信号侧通过为每个说话分添加测试信号获得。混合信号的长度被设定为两者中较短的一个。在添加之前，分量信号做了零均值化和方差归一化，结果使得混合信号对每一个说话人有0分贝的信噪比。混合信号使用3.2部分的方法被分离。我们经验的选择方程11 中未知的刻度参数为 10000.图3显示了给出了说话人分离信号的频谱图的一个例子。也同时给出了原始信号，混合信号的频谱图。可以看到，每个说话人都获得了相当的分离、分离信号的例子可以从以下网站获得：http:/cns.bu.edu/m

16、vss/courses/speechseg/。说话人分离算法性能的明确客观估计是很难获得的。基本的问题是：说话人的重建频谱中许多分量的能量比为混合前要小，从而导致了负面噪声的估计。因此，有人提出了几种不能令人满意的度量准则。Reyes etal只从原始说话人确定的分量中估计SNR。这会导致 SNR 的估计失真。 Smaragdis 模拟了为混合信号和重建信号的互相关，但是这种方法没有考虑留在信号中的大量能量。 Raj etal （文献【6】）把混合前信号的相位叠加到分离后的频谱上，从复频谱中计算SNR。不幸的是，由于重建过程带来的相位失真经常使对SNR 的估计失去意义。但是，我们已经

17、尝试从我们的获得一种对分离性能客观评估的方法。我们提出了两种度量；第一个是说话人的原始混合信号和分离信号的幅度谱的互协方差。分离的效果越好，它的值越大。不幸的是，互协方差即使是对混合信号也会非常的大，这个度量参数价值不大。作为一种替换，我们也提出了（同样效率不高）Raj etal提出的SNR 估计器的 SNR 测试。图4的表格给出了从混合信号到重建信号，SNR值得提高，原始为混合信号和混合、重建信号的幅度谱的协方差值。这些值是从五个样本得到的，这些样本在网上可以找到。对所有的女性说话者，性能平均提高了0.0520，对男性说话者则提高了0.0022。我们再次强调这些数据并不表明分离

18、感性效果的提高。最终，评估分离性能的唯一正确方法是客观的检验。客观检验表明，使用我们的技术获得的分离信号总是比混合语音具有跟高的性能，尤其是对男性说话人。图4图4,非混合信号的归一化协方差和SNR性能的提高5、观测和结论我们提出的说话人分离算法，经观测，可以分离出含有非常低的竞争说话人的信号分离信号。还有，该算法比大多的技术有几个有点。它仅需要非常少量的训练数据，在这篇论文实验中，每个说话人仅使用15 秒的训练数据。再者，分离需要的计算量也相当少两个说话人的混合语音可以在一台普通电脑上得到分离。这篇论文中有许多方面有利于将来性能的提高，现在的这个模型只是采用了简单的狄利克雷密度作为前提。弱国采用更复杂的模型，比如混合狄利克雷密度，性能将得到提高。在这篇论文中被忽视的相邻帧之间的短时相关性，如果对e使用马尔可夫先验处理，将会被更好的处理。我们计划在将来的论文中讨论这些问题。我们认为：这篇论文算法的简洁性，方法的创新性，和对性能提高的展望，使这篇论文成为值得将来研究的非常有趣的论文。6、致谢

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

使用潜在狄利克雷分解的单声道说话人分离

最新文档

相关资源

相关搜索