我院计算语言及医疗文本分析团队6篇论文被自然语言处理顶会EMNLP-2020收录

创建时间: 2020年10月28日, 星期三

我院计算语言及医疗文本分析团队6篇论文被自然语言处理顶会EMNLP-2020收录

 

近日,深圳市大数据研究院宋彦教授带领的计算语言及医疗文本分析团队6篇研究论文被自然语言处理顶级会议EMNLP-2020收录。

 

|会议简介

 

EMNLP是由国际计算语言学学会组织的自然语言处理领域最权威的国际会议之一,每年一届,与ACL等会议并列为自然语言处理领域最顶级的国际会议。今年的会议将于十一月16-20日于线上召开。

 

|收录论文

  1. ZEN: Pre-training Chinese Text Encoder Enhanced by N-gram Representations

预训练模型是当前自然语言处理学界及业界关注的焦点。作为上下文相关的文本表征技术,预训练模型在当前多数自然语言处理任务上相较于传统模型得到了显著的性能飞跃。本研究提出了一种结合更大颗粒度信息的新的中文预训练模型ZEN,有效地集成大颗粒度文本的信息,弥补仅使用字编码模型忽略词语层级信息的缺陷,从而提高中文预训练模型在下游任务的性能。

  1. Improving Constituency Parsing with Span Attention

成分句法分析是自然语言处理中的最基本的任务之一,其分析结果显示了输入文本的句法信息。该研究提出使用分类区间注意力机制(categorical span attention,CatSA),对不同长度的n元组进行建模,把它们携带的上下文信息引入文本区间表征中。分类区间注意力机制通对不同长度n元组分别建模,提升了模型对那些包含词数多、出现次数少的、但是包含了更多上下文信息的n元组的利用能力,进而提升模型的性能。

  1. Supertagging Combinatory Categorial Grammar with Attentive Graph Convolutional Networks

组合范畴语法(combinatory categorial grammar, CCG)是一类特殊的句法分析方式,通过赋予每个词相应的范畴标签并通过标签组合方式实现句法分析。本研究提出利用基于注意力机制的图神经网络(attentive graph convolutional networks, A-GCN)来对上下文信息进一步建模。与以往使用图神经网络的各类研究不同,该方法没有基于自动分析的依存句法结果来构建图结构,而是首先使用非监督方法获取输入中的组块(chunk)信息,而后依据组块内部和组块之间词的关系,来构建图结构。

  1. Improving Named Entity Recognition with Attentive Ensemble of Syntactic Information

命名实体识别(NER)是NLP领域一项重要且基础的任务,其目的在于在文本中识别命名实体(例如人名地名机构名等),并给下游自然语言处理任务提供支持。为了有效对多种知识进行编码和融合,本文提出了一种基于注意力集成(Attentive Ensemble)的模型。该方法包括三个部分:键值对注意力网络(Key-Value Memory Networks),句法注意力机制(Syntax Attention)和门控机制(Gate Mechanism)。在多个数据集上的实验中,该模型都表现出了很好的性能,取得了该领域最优的结果。

  1. Named Entity Recognition for Social Media Texts with Semantic Augmentation

在通用领域之外,本研究团队还针对特殊领域的NER进行了深入研究。作为NER任务的一个主要使用场景,社交媒体文本上存在着广泛的NER需求,并且因为其简短且非正式的表述形式,对于一般的NLP任务带来了极大的挑战。目前,社交媒体领域的NER方法遇到的最大问题是数据稀疏性(Data Sparsity),多数情况下模型经常会遇见训练过程中未见的实体。为了解决此问题,本研究提出了使用语义扩充(Semantic Augmentation)的方法,即扩充文本的语义空间,利用相似词的语义信息来帮助当前词的命名实体识别。

  1. Generating Radiology Reports via Memory-driven Transformer

 

文本生成是自然语言处理的一个主要研究方向,与一般的文本生成不同,针对特定领域的自然语言生成往往存在着高度领域相关性以及存在特殊的领域知识驱动的需求。本研究针对医疗影像报告生成这一特殊领域进行知识驱动的文本生成研究,提出了一种记忆驱动的报告生成方法--Memory-driven Transformer,解决医疗影像报告生成方面医生的人工投入巨大的问题,减轻医生的工作量和压力。与传统文本生成研究相比,该研究首次提出在解码端使用额外的辅助模块帮助文本生成过程,使得文本生成部分可以脱离编码器端的输入,充分利用训练数据中的关联文本和知识指导文本生成过程。

 

|论文详情

 

1. ZEN: Pre-training Chinese Text Encoder Enhanced by N-gram Representations

 

预训练模型是当前自然语言处理学界及业界关注的焦点。作为上下文相关的文本表征技术,预训练模型在当前多数自然语言处理任务上相较于传统模型得到了显著的性能飞跃,因此自BERT被提出以来近两年时间内几乎席卷了整个NLP领域,并且随着BERT等一系列预训练模型的出现,利用大规模无标注纯文本语料训练的上下文相关表征方法受到了极大关注。然而,针对中文的预训练模型之前基本沿用了英文模型的做法,聚焦于小颗粒度文本单元(字)的输入。但与英文相比,中文没有空格等明确的词语边界,使得多数情况下文本表达中存在的交叉歧义被错误地带入了文本编码之中,模型很难从单字的序列中学习到大颗粒度文本蕴含的语义信息,例如双字或者多字词的整体含义等。同时,目前很多模型的解决方法依然是遵循传统BERT模型的遮盖(masking)策略,例如采用多层(词,短语等)遮盖策略来弥补这一缺陷。然而,利用遮盖策略存在过度依赖外部分词质量和训练/测试短语信息不匹配两个问题,从而引起错误信息传播。因此,基于本研究团队以往工作的基础,本研究提出了一种结合更大颗粒度信息的新的中文预训练模型——ZEN,提出了一种基于BERT的n-gram增强中文文本编码器ZEN。模型架构如图1所示,利用n-gram 编码器,ZEN可以有效地集成大颗粒度文本的信息,弥补仅使用字编码模型忽略词语层级信息的缺陷,从而提高中文预训练模型在下游任务的性能。

 

图1:ZEN模型架构,其中左边展示了标准的BERT字编码结构,右边是本研究提出的N-gram编码模块,蓝色箭头表示两部分的融合方式

 

与其他模型相比,ZEN可以显式地结合潜在词语的边界信息来帮助模型更好地对文本进行表征。具有简单有效(不需要其他数据集和复杂的训练优化方式)和收敛迅速两大优势。文章对BERT和ZEN两个模型分别实现了两组设置:R(随机初始化) 和 P(基于谷歌开源的BERT中文模型进行初始化)。实验结果表明,在两组设置上,ZEN都取得了比BERT更好的性能。在涵盖词汇级和句子级两个层级的七大经典中文语言处理任务中——包括中文分词(CWS),词性标注(POS),命名实体识别(NER),文本分类(DC),情感分类(SA),语义匹配(SPM),自然语言推理(NLI),ZEN在七个下游任务上都带来了显著提升(如表1,其中CWS、POS、NER的分数为F1值,其他任务为准确率)。ZEN与现有的其他模型在七个任务上进行了比较,取得了包括CWS、POS、NER、DC、SPM在内的五个任务上最好的结果。同时本文还在小规模数据集上进行了实验,模拟了只有少量预训练数据语料的场景,验证了ZEN在小数据上的效果同样出色。

 

表1:ZEN的总体性能及其与现有模型在七项NLP任务上的性能比较

 注:该论文预印本已于去年在arXiv发布,详情请见https://arxiv.org/abs/1911.00720,包括论文相关代码和模型也已在其中刊出。

 

 

2. Improving Constituency Parsing with Span Attention

 

成分句法分析是自然语言处理中的最基本的任务之一,其分析结果显示了输入文本的句法信息。这种句法信息能有效帮助模型来获取高质量的文本表征并得到句子的关键成分结构,从而提升模型对下游各类自然语言处理任务的性能。目前主流的句法分析工具(例如伯克利大学句法分析工具)采用基于图结构的方法,首先预测包含个词输入文本中每一段文本区间 ()(text span)所属的句法成分类别,例如名词短语(NP)、动词短语(VP)、介词短语(PP)等。接下来,通过CYK算法,从所有文本区间中提取出最优的合法句法树。在这个过程中,文本区间表征(span representation)对句法分析器的性能有巨大的影响。在文本区间的向量表征中加入额外的上下文特征是一种有效的提升句法分析器性能的方法。考虑到n元组(n-gram,即文本中连续n个词组成的元组)是一种广泛使用的,并且被证明在各类自然语言处理任务中行之有效的上下文特征,其也同样具有提升文本区间向量表征能力,进而提升模句法分析工具性能的作用。因此,该研究提出使用分类区间注意力机制(categorical span attention,CatSA),对不同长度[1]的n元组进行建模,把它们携带的上下文信息引入文本区间表征中。该模型的架构图展示在图2中,其中左边展示了现有的基于图结构的成分句法分析的模型架构;右边展示了该研究提出的分类区间注意力机制。

    具体地,对于每一个文本区间() ,该方法首先从一个预先构建的n元组词表中抽取所有在该文本区间内出现的n元组,并把这些n元组按照其长度分组,记得到的长度为u的n元组集合为。然后,对于每一组n元组,该方法使用注意力机制对该组中的n元组进行比较和建模,并依据n元组在该语境下对成分句法分析任务的贡献对其分配权重,从而把重要的上下文信息整合入文本区间的向量表征,进而提升句法分析模型的性能。和一般的区间注意力机制(span attention,SA)把不同长度的n元组放在一起建模相比,分类区间注意力机制通对不同长度n元组分别建模,提升了模型对那些包含词数多、出现次数少的、但是包含了更多上下文信息的n元组的利用能力,进而提升模型的性能。

图2:基于区间注意力机制的成分句法分析系统框架图

 

为检验该模型的性能,该研究在阿拉伯语、中文、英文三个标准数据集上进行试验。表2展示了该研究提出的模型、前人的模型、和现有句法分析工具(斯坦福大学CoreNLP工具(SCT)以及伯克利句法分析工具(BNP))在各个语言测试集上的准确率P、召回率R、F1值的对比,其中ATB、CTB5、PTB分别对应阿拉伯语、中文、英文句法分析数据集。可以看出,该研究提出分类区间注意力方法在三种语言上超越了所有前人的研究,达到了目前最高的句法分析成绩,充分表明了该研究提出的模型能有效利用n元组信息来提升模型的性能。

 

表2:模型在阿拉伯语(ATB)、中文(CTB5)、英文(PTB)句法分析上的实验结果

 

此外,在不同长度的句子上,提出的模型能够能够超越基础模型的性能(见图3),充分表明了提出的分类区间注意力机制能够更有效地分析长句子的句法结构。

图3:模型在三种语言不同长度句子(横轴)上的F值(纵轴)

 

为了提升模型的可解释性,图4展示了一个基础模型分析错误,但提出模型分析正确的例子。其中正确和错误的句法分析结果分别由红色和绿色表示;成分表现的上角标表示了该成分在句法树中所处的高度。可以看到,基础模型由于未能准确的获取长跨度的文本区间(即“customer … utilities”共计25个词)的向量表征,从而误把介词短语PP附着于名词“customer”。相对应的,该研究提出的模型能够利用n元组的上下文信息增强文本区间的表征能力,从而正确识别该介词短语应当附着于动词“compute”,从而得到正确的句法分析结果。

图4:本研究提出模型和基础模型对特定输入的句法分析结果对比

 

 

 

3. Supertagging Combinatory Categorial Grammar with Attentive Graph Convolutional Networks

 

组合范畴语法(combinatory categorial grammar, CCG)是一类特殊的句法分析方式,通过赋予每个词相应的范畴标签并通过标签组合方式实现句法分析。相比于传统的成分句法和依存句法,组合范畴语法有几大优势:1,句法分析速度快,范畴组合可以实现几倍于传统句法分析的速度;2,自动携带语法和语义信息,范畴语法不但本身是语法标签,同时它也指示了词汇的语义功能,以及词汇之间的关联关系。因此,组合范畴语法自2009年大规模范畴句法树库被标注出来之后就得到了学界持续的关注,宋彦教授早年也参与了中文大规模组合范畴语法树库的构建工作。关于组合范畴语法的详细信息可以参考https://en.wikipedia.org/wiki/Combinatory_categorial_grammar

作为组合范畴语法分析的最重要一步,词汇范畴标注(supertagging)一直是组合范畴语法分析的关键环节,获取词汇范畴标注的结果基本上完成了80%的组合范畴句法分析任务,且标注结果将极大地帮助模型理解输入文本的句法和语义信息,有助于提升各类下游任务的性能。一般地,词汇范畴标注的性能很大程度上依赖于模型对上下文信息的建模能力。因此,使用性能优异的编码器(例如BiLSTM)可以有效地提升模型的性能。然而,现存的词汇范畴标注算法并没有关注如何利用其它上下文特征来帮助模型提升性能。对此,本研究提出利用基于注意力机制的图神经网络(attentive graph convolutional networks, A-GCN)来对上下文信息进一步建模。模型的结构图如图5所示。

 

图5:基于注意力机制的图神经网络(A-GCN)的模型结构图

 

与以往使用图神经网络的各类研究不同,该方法没有基于自动分析的依存句法结果来构建图结构,而是首先使用非监督方法获取输入中的组块(chunk)信息,而后依据组块内部和组块之间词的关系,来构建图结构。图6展示了一个基于组块构建图结构的例子。具体地,该方法首先利用一个词表获取输入句子中存在的所有组块(图6中绿色高亮的部分为识别出的组块)。接下来,对于每对相邻的组块,该方法用边把不同组块的首词和尾词两两相连(由于英文组块的中心词大都在组块的开始或结束为止),得到跨组块(cross-chunk)的边(由红色表示)。同时,对于每个组块,用边把组块内相邻的词两两相连,得到组块内(in-chunk)的边(由蓝色表示)。最后,该方法把上述两种边进行整合,并据此得到对应的图结构。

图6:基于跨组块(cross-chunk)和组块内(in-chunk)两种边的图结构构建举例

 

考虑到上述方法构建的图结构可能含有一定的噪音,我们在一般的图神经网络中引入注意力机制(Attention),使得模型能够有效识别在特定语境下的这种噪音,并有区别地对上下文信息进行建模及利用。

为验证模型的效果,该研究在在英文CCGbank数据集上进行了实验。该模型(A-GCN (Chunk))以及前人方法在词汇范畴标注的准确率和句法分析的LF值如表3(a)所示。其中,A-GCN (Full)表示模型使用的是全连接图(即输入文本中任意两个词之间都会有一条边)。此外,表3(b)展示了不同设定下(即是否使用组块内边、跨组块边来构建图结构,以及是否在图神经网络中使用注意力机制)的模型试验结果。这些结果表明了该方法在利用上下文信息提升词汇范畴标注性能的能力。特别的,注意力机制能够有效识别图结构中存在的噪音,并对其恰当的利用,在A-GCN模型中起到了重要的作用。

 

表3:不同设定下模型在CCGbank上词汇范畴标注(Tag)和句法分析(LF)上的性能

   

为了提升模型的可解释性及进行详细的性能分析,该研究对比了一些A-GCN和EasyCCG的词汇范畴标注和组合范畴句法分析结果(部分结果如图6所示)。其中,标注正确和错误的词汇范畴分别用绿色和红色表示。可以看出,与目前广泛使用的EasyCCG相比,A-GCN模型可以输出更高质量的结果。

图6:A-GCNEasyCCG对两个输入句子的词汇范畴标注和组合范畴句法分析结果对比

 

 

 

4. Improving Named Entity Recognition with Attentive Ensemble of Syntactic Information

 

命名实体识别(NER)是NLP领域一项重要且基础的任务,其目的在于在文本中识别命名实体(例如人名地名机构名等),并给下游自然语言处理任务提供支持。在NER领域最近的研究中,引入额外知识是提升模型性能的一种常见方式。但是如何引入多种知识,且将多种知识有效地融合,仍然是很大的挑战。该研究提出使用多种句法信息(词性标注、成分句法信息、依存句法信息等)帮助模型识别命名实体。同时,为了有效对这些信息进行编码和融合,本文提出了一种基于注意力集成(Attentive Ensemble)的模型。该方法包括三个部分:键值对注意力网络(Key-Value Memory Networks),句法注意力机制(Syntax Attention)和门控机制(Gate Mechanism)。具体地,该研究使用序列标注(Sequence Labeling)模型作为基础模型,图7展示了该论文采用的整体模型框架。左边是传统的序列标注模型,包括嵌入层,编码层和输出层。在此基础上,本研究使用基于注意力集成的网络架构,对每个词(字)的多种句法信息做编码和聚合,利用多种句法信息来指导模型进行命名实体识别。其中,该研究先使用任意句法信息提取器提取出上述三种句法信息(如图7右下角所示);之后,模型利用一个键值对注意力网络对不同句法信息做编码,得到每种句法信息的表示(如图7右边中间部分表示);由于在不同上下文中,不同句法信息对命名实体识别的贡献是不同的,因此该研究提出一个句法注意力机制将不同的句法信息融合,再将此信息回流到序列标注过程中去。为了将该词(字)原本的语义信息与句法信息做有效地融合,该文提出一个门控机制,控制两部分的信息流,融合成为该词(字)的最终表示。最后,模型使用一个条件随机场(CRF)进行解码,得到每一个词(字)的标签,完成命名实体识别任务。

 

图7:基于注意力集成的命名实体识别模型框架图

 

为了验证模型的效果,该研究在广泛使用的三个英文标准数据集和三个中文标准数据集上进行了实验,并使用自动化评测指标进行了评测。表4展示了该文模型与先前工作的比较结果。在六个数据集上,该文模型都表现出了很好的性能,取得了该领域最优的结果。

表4:该文模型在不同命名实体识别数据集的性能

 

另外,该论文还进行了三个不同的实验,分别验证了使用键值对注意力网络,句法注意力机制和门控机制的效果。实验结果分别在表5、6、7展示。从结果可以看出,使用上述三个模块,可以对模型的性能有大幅度的提升,验证了这三个模块的有效性。

 

表5:使用键值对注意力机制和不同句法信息在不同数据集的性能

 

表6:使用句法注意力机制(SA)在不同数据集的性能

 

表7:使用门控机制(GM)和不同句法信息在不同数据集上的性能

 

为了提升模型的可解释性,该文也展示了键值对注意力网络,句法注意力机制和门控机制的关注图,结果展示在图8中。可以发现,该文模型的不同模块都可以给有效信息更多的关注,从而帮助模型成功识别命名实体。

图8:该文模型不同模块的关注图效果展示

 

 

 

5. Named Entity Recognition for Social Media Texts with Semantic Augmentation

 

在通用领域之外,本研究团队还针对特殊领域的NER进行了深入研究,以此驱动团队对于在特定领域进行基础NLP任务的相关工作以及实验相关领域适应技术。作为NER任务的一个主要使用场景,社交媒体文本上存在着广泛的NER需求,并且因为其简短且非正式的表述形式,对于一般的NLP任务带来了极大的挑战。NER作为理解用户文本的关键一步,因此也受限于社交媒体文本的这些挑战和困难。目前,社交媒体领域的NER方法遇到的最大问题是数据稀疏性(Data Sparsity),多数情况下模型经常会遇见训练过程中未见的实体。为了解决此问题,本研究提出了使用语义扩充(Semantic Augmentation)的方法,即扩充文本的语义空间,利用相似词的语义信息来帮助当前词的命名实体识别。为了充分利用扩充语义的信息,该方法提出了两个模块,分别是语义扩充模块(Augmentation Module)和门控模块(Gating Module)。具体地,图9是整个模型的框架图。左侧的白色部分代表传统的序列标注(Sequence Labeling)模型,包括传统的嵌入层,编码层和输出层。在此基础上,本文利用语义扩充机制对每个词在扩充的语义空间中进行建模(右边绿色和黄色部分),其中绿色部分代表一个提取器(Extractor),用来提取与中心词(字)相似的词(字),作为扩充的语义信息;再输入到黄色部分,通过基于注意力的扩充模块(Attentive Augmentation Module),对扩充语义信息进行编码和聚合,得到该词(字)的扩充语义信息的表示。其中,聚合部分是通过一个基于注意力的操作,模型通过每个扩充语义信息对命名实体识别的不同贡献赋予不同的权重,聚合成扩充语义信息的最终表示。之后,再把此信息回流到序列标注过程中,由于在不同上下文中,扩充语义信息和原始词(字)信息对命名实体识别的贡献不一样,所以该文通过一个门控机制对信息流进行控制,融合成为该词(字)的最终表示。最后,模型使用CRF层进行解码,得到每一个词(字)的标签,完成NER任务。

图9:基于语义扩充的社交媒体领域命名实体识别框架图

 

为了验证模型的效果,该研究首先在两个英文社交媒体数据集和一个中文社交媒体数据集上进行了实验,并且使用自动化评测指标进行了评测。表8(a)展示了该论文模型与先前工作比较的结果。在三个数据集上,该文提出的模型都表现出良好的性能,取得了该领域最优的效果。另外,因为该文主要关注在数据稀疏性的解决上,故该文还在训练集中未见的命名实体上做了实验。表8(b)展示了前人工作,基线模型(Baseline)以及该研究提出的模型(Ours)在未见实体的召回率(Recall)。从结果中可以看出,该研究提出的模型显著提高了召回率,并达到了目前最好的效果,证明该模型可以有效地减缓数据稀疏问题。

 

(a) (b)


表8:该研究提出的模型在不同社交媒体命名实体识别数据集上的性能(a)及在未见实体上的性能(b)

 

为了提升模型的可解释性,该研究也展示了模型中的扩充模块和门控模块的关注图。图10展示了该关注图。可以发现,扩充模块能够给有意义的扩充语义信息更高的关注,且门控模块也可以在编码层和扩充模块之间关注更有用的信息,帮助模型识别命名实体。

图10 该文模型扩充模块和门控模块的关注图展示

 

 

 

6. Generating Radiology Reports via Memory-driven Transformer

 

文本生成是自然语言处理的一个主要研究方向,与一般的文本生成不同,针对特定领域的自然语言生成往往存在着高度领域相关性以及存在特殊的领域知识驱动的需求。本研究针对医疗影像报告生成这一特殊领域进行知识驱动的文本生成研究,试图提出一种高效的领域文本生成方法,解决医疗影像报告生成方面医生的人工投入巨大的问题,减轻医生的工作量和压力。与一般的文本生成的最大区别在于,医疗影像报告与图像输入结合,生成结果往往是长文本(包含多个句子),且具有模式化(包含特定的内容模块,例如分析,说明和结论等固定内容),因此自动生成这样的报告极具挑战。然而,医疗影像报告的模式化的特点一定程度上也可以帮助影像报告的生成过程,通过不同的影像报告间存在着相似的行文特点驱动生成过程。为了利用这种模式化信息,该研究提出了一种记忆驱动的报告生成方法--Memory-driven Transformer。该方法包含两个关键部分:关联记忆(Relational Memory)和记忆条件归一化(Memory-driven Conditional Layer Normalization)。具体地,该研究采用Transformer作为影像报告生成的骨架模型,图11显示了该论文采用的整体模型框架,左侧和中间的灰色方框分别表示传统的Transformer文本生成模型的编码器和解码器部分。在此基础上,本研究提出的“关联记忆”(右侧蓝色方框)对医疗文本中的模式化信息建模,通过在训练文本上学习得到的短距离约束结合整个Transformer的长距离依赖实现对于模式信息的记录和使用,可以得到不同时刻的这类关联信息的向量表示。接下来,我们对传统Transformer解码器的结构进行改进,通过“记忆条件归一化”(中间蓝色方框)利用模式化信息,把模式化信息深度地引入解码的过程,通过记忆状态矩阵影响归一化层的两个参数,从而影响模型在解码过程中的向量表示,最终起到通过模式化信息深度辅助生成不同时刻的预测字(词)的效果。与传统文本生成研究相比,该研究首次提出在解码端使用额外的辅助模块帮助文本生成过程,使得文本生成部分可以脱离编码器端的输入,充分利用训练数据中的关联文本和知识指导文本生成过程。

 

 

图11:记忆驱动的影像报告生成模型框架图

 

为了验证模型的效果,该研究首先在两个最广泛使用的标准数据集上进行了实验,并且使用自动化评测指标进行了评测。表9展示了该论文模型与先前工作比较的结果(BL、MTR及RG分别指BLEU、METEOR和ROUGE,均是文本生成的典型评价方式)。在两个数据集上,该研究提出的模型都表现出良好的性能和鲁棒性,取得了所使用数据集上最优的结果。

 

表9:该文模型在不同影像报告数据集上的性能

 

除了定量实验之外,该论文也进行了定性分析(案例分析)。图12展示了基线模型(BASE)和该研究提出的模型(BASE+RM+MCLN)生成的报告。通过比较可以发现,该模型生成的报告更加接近真实的影像报告(由医生所写的影像报告),能够有效地学习到报告中模式化的信息,并且覆盖到了应有的特定影像描述关键词。

图12:该文模型的影像报告生成效果展示

 

为了提升模型的可解释性,该研究也展示了模型中的图像-文本关注对齐效果。图13展示了基线模型(BASE)和该文模型(BASE+RM+MCLN)的对齐高亮图。通过比较可以发现,该研究提出的模型能够学习到更加有意义的关注图,在生成不同内容的时候,能够更加准确地关注到输入图像中对应的区域。

 

图13:该文模型的图像-文本关注图效果展示