将视觉语言特征纳入科学文献摘要

Incorporating Visual-Linguistic Features into Scientific Document Summarization

自 COVID-19 出现以来,已经发表了数以万计的研究论文(尤其是在医学等科学领域),仅靠人工很难跟踪如此快速的进展。前所未有的紧迫性迫切需要先进的自然语言处理(NLP)技术来进行科学文献摘要,以帮助科学家快速掌握文献中的主要见解。科学文献被认为是视觉丰富的文档,不仅传达文本,还传达丰富的视觉语言内容,例如图形和版式,它们携带重要信息。例如,图形可以补充文本摘要,项目符号布局等排版可以表示研究亮点。因此,总结文献需要一个结合文本、图形和版式的多模态模型。然而,科学 NLP 的发展尚未跟上这一趋势,前沿的总结者大多是纯文本的。这奠定了该提案的目标:研究视觉语言信息在科学概括中的使用。

 

视觉语言信息已被证明对于文本理解任务很有用。我们认为它对于文本生成也很有用。特别是,我们将设计一个摘要框架来有效连接文本、图形和版式,并利用新颖的融合机制在空间(例如,文本-图形比率)、结构(例如,兄弟文本-图形)和语义上聚合它们水平(例如,文本-图形互补性)。为了进一步让我们的摘要器具备科学领域知识,我们将设计一组多模态预训练任务,这不仅丰富了我们的摘要器的科学文档的独特属性(例如,按章节内容),而且还学习了交叉不同模式之间的对应关系(例如,在了解每个论文部分的文本-图形比例的情况下生成多模式摘要)。最后,将开发一个基准,即 Paper2Poster,以进一步评估我们的摘要器推进实际科学摘要任务的潜力。 Paper2Poster 不仅要求摘要者俱备抽像源/输入论文中的视觉和文本内容的技能,而且还要求能够以视觉结构的布局输出它们以进行海报演示(例如,之字形)。相应地,我们将使用一个新的概率生成模型来扩展我们的摘要器,该模型支持基于摘要内容语义的内容感知布局生成。

 

虽然该提案旨在开发用于科学摘要的创新多模态解决方案,但其研究成果对于摘要之外的应用也很有价值,这些应用还需要视觉吸引力和有效的消息/想法沟通,并最终将有助于开发具有有效视觉通信的智能机器技能。