多渠道多方会议的空间感知扬声器诊断

论文标题

多渠道多方会议的空间感知扬声器诊断

Spatial-aware Speaker Diarization for Multi-channel Multi-party Meeting

论文作者

Wang, Jie, Liu, Yuji, Wang, Binling, Zhi, Yiming, Li, Song, Xia, Shipeng, Zhang, Jiayang, Tong, Feng, Li, Lin, Hong, Qingyang

论文摘要

本文介绍了多方多方会议的空间感知扬声器诊断系统。诊断系统通过麦克风阵列获得说话者的方向信息。扬声器空间嵌入是由XVECTOR生成的，S-vector源自超级指示波束成形（SDB），这使得嵌入更强大。具体而言，我们提出了一种新型的多渠道序列到序列神经网络结构，称为歧视性多流神经网络（DMSNET），该结构由注意力超级指导波束形成（ASDB）块和构型编码器组成。提出的ASDB是一个自动适应的通道块，通过对通道之间的相互依赖性进行建模来提取阵列音频的潜在空间特征。我们探索DMSNET，以解决多频道音频上的重叠语音问题，并在评估集时达到93.53％的精度。通过执行基于DMSNET的重叠语音检测（OSD）模块，基于聚类的诊断系统的诊断错误率（DER）从13.45％显着降低至7.64％。

This paper describes a spatial-aware speaker diarization system for the multi-channel multi-party meeting. The diarization system obtains direction information of speaker by microphone array. Speaker spatial embedding is generated by xvector and s-vector derived from superdirective beamforming (SDB) which makes the embedding more robust. Specifically, we propose a novel multi-channel sequence-to-sequence neural network architecture named discriminative multi-stream neural network (DMSNet) which consists of attention superdirective beamforming (ASDB) block and Conformer encoder. The proposed ASDB is a self-adapted channel-wise block that extracts the latent spatial features of array audios by modeling interdependencies between channels. We explore DMSNet to address overlapped speech problem on multi-channel audio and achieve 93.53% accuracy on evaluation set. By performing DMSNet based overlapped speech detection (OSD) module, the diarization error rate (DER) of cluster-based diarization system decrease significantly from 13.45% to 7.64%.

下载PDF全文

下载文献需遵守相关版权规定

论文标题