近日,我校计算机学院(软件学院)张学良教授团队的博士生刘晋江,代表学校在国际助听语音增强比赛 “The 2nd Clarity Enhancement Challenge (CEC2)”中斩获 “Hearing industry research consortium prizes objective evaluation”和“Hearing industry research consortium prizes listening test” 两个赛道的第二名。
随着人口老龄化,患有听力障碍的人将急剧增加,根据近期国外权威杂志《柳叶刀》的统计和预测,2019年全球15亿人患有听力障碍,到2050年数字将增加到25亿人。因此,对助听器有强烈的需求。Clarity Challenge系列比赛是由University of Sheffield, University of Nottingham, University of Salford, University of Cardiff等四所英联邦大学和The Hearing Industry Research Consortium (IRC)、Amazon等工业合作伙伴合办的语音增强比赛。该比赛旨在组织对助听器算法的公开评估,并鼓励创新的机器学习方法来进行助听器噪声语音处理。本次比赛吸引了来自Carnegie Mellon University(卡内基梅隆大学)、Tokyo Metropolitan University(东京都大学)、University of Sheffield(谢菲尔德大学)、University of Oldenburg(奥登堡大学)、National Taiwan University(台湾大学)、AcademiaSinica(台北中央研究院)、Università Politecnica delle Marche(马尔凯理工大学)等学术机构,以及来自国外助听器厂商4Pulse Audition、Horizon Robotics等工业界的人员参赛,大赛第一名的获得者为来自卡内基梅隆大学的团队。
在此次比赛中,刘晋江提出了使用于低延时场景的low-latency STFT 策略,基于该策略的时频域语音增强算法系统延时只取决于帧移,顺利解决了频域高分辨率神经网络算法在超低延迟场景中的落地问题,并创新性的先后提出了原创的DRC-NET(CEC2)和原地倒谱语音增强网络ICSE(CEC ICASSP 2023)等高性能神经网络用于双耳多麦的语音增强,实现了超低信噪比下的双耳端到端定向语音波束增强。
刘晋江,张学良教授团队三年级博士生,研究方向为多通道语音增强。该生已在此领域的顶级会议ICASSP和INTERSPEECH发表论文5篇,同时参与预研和落地了众多工业界关键性课题,包括多通道降噪、去混响、声学回声消除、双耳助听增强等。