我校计算机学院（软件学院）刘瑞研究员团队最新研究论文被人工智能顶级国际会议AAAI2024录用

资源描述

对话式语音合成（Conversational Speech Synthesis，CSS）旨在在对话环境中以适当的语调、语气和情感进行语音表达。然而，由于情感对话语音数据集的缺乏和情感建模的困难，之前的研究对于情感理解和情感表达问题的研究还不够深入。我校计算机学院（软件学院）刘瑞研究员团队联合字节跳动（新加坡）公司研究团队，提出了一种新颖的情感对话语音合成模型，名为ECSS，显著提升了对话场景下合成语音的自然度以及情感表现力。

首先，对于对话情感理解，引入了一种基于异构图的情感上下文建模机制，以对话文本、语音、说话人身份、情感类别和情感强度等多源对话历史知识作为输入，对对话上下文进行建模，以准确的理解对话上下文中的情感线索。其次，对于对话情感表达，提出基于对比学习的情感渲染器模块，以准确推断目标话语的情感风格，从而实现准确的对话情感渲染。实验结果表明，我们的模型在对话语音自然度和情感表现力方面明显优于基线模型，为对话式人工智能的发展提供了新的思路。

论文“Emotion Rendering for Conversational Speech Synthesis with Heterogeneous Graph-Based Context Modeling”被中国计算机学会（CCF）推荐的A类人工智能国际学术会议 The 38th Annual AAAI Conference on Artificial Intelligence（AAAI 2024）录用。AAAI是由人工智能促进协会举办的国际人工智能领域顶级会议之一，汇集了全球最顶尖的人工智能领域专家学者，一直是人工智能界的研究风向标，在学术界久负盛名。

文章作者包括：刘瑞研究员（第一作者），2023级博士生胡一帆（导师外第一作者），以及新加坡字节跳动公司青年科学家任意。这项研究得到了国家自然科学基金青年基金、内蒙古自治区“草原英才”工程项目、自治区留学人员创新创业启动支持计划、广东省数字孪生人重点实验室（华南理工大学）开放课题、内蒙古大学骏马计划高层次人才引进项目、内蒙古自治区本级引进高层次人才科研支持等项目的支持。

资源详情