对话式语音合成(Conversational Speech Synthesis,CSS)旨在在对话环境中以适当的语调、语气和情感进行语音表达。然而,由于情感对话语音数据集的缺乏和情感建模的困难,之前的研究对于情感理解和情感表达问题的研究还不够深入。我校计算机学院(软件学院)刘瑞研究员团队联合字节跳动(新加坡)公司研究团队,提出了一种新颖的情感对话语音合成模型,名为ECSS,显著提升了对话场景下合成语音的自然度以及情感表现力。
首先,对于对话情感理解,引入了一种基于异构图的情感上下文建模机制,以对话文本、语音、说话人身份、情感类别和情感强度等多源对话历史知识作为输入,对对话上下文进行建模,以准确的理解对话上下文中的情感线索。其次,对于对话情感表达,提出基于对比学习的情感渲染器模块,以准确推断目标话语的情感风格,从而实现准确的对话情感渲染。实验结果表明,我们的模型在对话语音自然度和情感表现力方面明显优于基线模型,为对话式人工智能的发展提供了新的思路。
论文“Emotion Rendering for Conversational Speech Synthesis with Heterogeneous Graph-Based Context Modeling”被中国计算机学会(CCF)推荐的A类人工智能国际学术会议 The 38th Annual AAAI Conference on Artificial Intelligence(AAAI 2024)录用。AAAI是由人工智能促进协会举办的国际人工智能领域顶级会议之一,汇集了全球最顶尖的人工智能领域专家学者,一直是人工智能界的研究风向标,在学术界久负盛名。
文章作者包括:刘瑞研究员(第一作者),2023级博士生胡一帆(导师外第一作者),以及新加坡字节跳动公司青年科学家任意。这项研究得到了国家自然科学基金青年基金、内蒙古自治区“草原英才”工程项目、自治区留学人员创新创业启动支持计划、广东省数字孪生人重点实验室(华南理工大学)开放课题、内蒙古大学骏马计划高层次人才引进项目、内蒙古自治区本级引进高层次人才科研支持等项目的支持。