关于线索语中异步多模态融合与小样本识别问题的研究

一、项目描述/目标

为了解决唇读容易混淆的问题，美国Gallaudet大学的R. Orin Cornett教授于1967年发明了一种利用手势来辅助唇读的交流方法，称作Cued Speech (CS)，中文译为线索语。在此系统中，手的位置用于编码元音，而手形用于编码辅音(见图1)。具体来说，在英语CS中，4种手位置用来编码单元音，两种手的移动编码双元音以及8种手形编码辅音。针对目前线索语自动识别中存在的问题和挑战, 本项目将从张量分解的角度来研究CS异步多模态融合，并利用迁移学习中的知识蒸馏来解决基于小样本的CS识别问题。

二、影响力/挑战

影响力：本项目的研究能促进聋哑人之间及其与听力正常人群之间的交流，具有重要的社会意义和应用价值。同时，本项目的研究对于唇读、听力障碍者早期教育、语音纠正和治疗、机器人、视听转换以及与人机互动等领域也具有重要的促进作用。另外，本项目拟研究的异步多模态融合和基于小样本弱标签数据的动态解码建模在其他领域也备受关注。例如，鸡尾酒会问题中的多模态语音识别以及人面部表情的自动识别等。因此，本项目提出的解决方案也必将促进这两个问题在这些领域的发展，具有重要的科研意义。

挑战：

1.对于线索语异步多模态融合，之前方法没有考虑到延迟量随时间的变化，并且忽略了CS不同模态(嘴唇、手形和手位置)之间的非线性异步关系，在融合过程中也没有考虑到模态之间的两两关系。另外，也不能提供不同模态对于识别效果影响程度的可解释性分析。

2.在线索语的动态识别任务中，数据量体量很小，导致目前此任务的识别效果偏低，有待进一步提升。

三、解决方案与主要贡献

1.本项目将首次从张量分解来研究CS中异步多模态的非线性融合问题。

2.首次建立新的基于三个张量的融合模型，使其不仅能考虑三个模态之间的关系，还能着重考虑嘴唇与手位置，嘴唇与手形之间的两两关系，更适合CS中三个模态的特点；

3.首次利用张量t-SVD (tensor-Singular Value Decomposition)和LTRD (Low Tubal Rank Decomposition)分解来减少模型的参数量。值得注意的是，本项目拟采用的这两个模型也可应用于其他领域的异步多模态融合问题。

4.本项目拟建立的基于小样本的CS动态识别模型的创新点为：

5.首次利用语音信号来构建CS自动识别的教师-学生网络模型；

6.在现有损失函数上，新加入教师特征和学生特征之间的KL散度以及余弦相似度，通过线性组合来构建新的损失函数；

7.利用LSTM替代之前的HMM-GMM对CS进行端到端动态解码。

四、主要创新点

1.问题的特色与创新

1)本项目中基于深度学习的CS自动识别的课题属于一个较新的交叉研究领域，其中的科学问题涉及到语音处理，图像识别以及多模态融合等多个学科领域。同时，在申请人等原创性地提出的中文CS的基础上，本项目也将是对中文CS自动识别问题的首次研究。

2.方法的特色与创新：

1)从张量分解这个新角度来解决CS中异步多模态之间的非线性融合问题。该问题的解决将使得CS的多模态融合过程更符合其本身固有的复杂性，也将减少异步问题带来的干扰，使得融合后的特征能更准确地体现CS的信息，从而提高系统的识别效果。

2)针对目前CS自动识别效果不佳的问题，如何利用语音信号做迁移学习，建立一个基于教师-学生网络的端到端LSTM动态解码模型。其中，本项目将构造一个能同时考虑到特征在语义上关联性以及它们在分布上相似性的损失函数。该问题的解决将使得CS自动识别克服之前研究中弱标注以及小数据量的限制，使得参数得到整体优化，进一步提高模型的效率和鲁棒性。

图. 英语线索语表

科研项目

关于线索语中异步多模态融合与小样本识别问题的研究