热门搜寻

将视觉语言特征纳入科学文献摘要

Incorporating Visual-Linguistic Features into Scientific Document Summarization

自 COVID-19 出现以来，已经发表了数以万计的研究论文（尤其是在医学等科学领域），仅靠人工很难跟踪如此快速的进展。前所未有的紧迫性迫切需要先进的自然语言处理（NLP）技术来进行科学文献摘要，以帮助科学家快速掌握文献中的主要见解。科学文献被认为是视觉丰富的文档，不仅传达文本，还传达丰富的视觉语言内容，例如图形和版式，它们携带重要信息。例如，图形可以补充文本摘要，项目符号布局等排版可以表示研究亮点。因此，总结文献需要一个结合文本、图形和版式的多模态模型。然而，科学 NLP 的发展尚未跟上这一趋势，前沿的总结者大多是纯文本的。这奠定了该提案的目标：研究视觉语言信息在科学概括中的使用。

视觉语言信息已被证明对于文本理解任务很有用。我们认为它对于文本生成也很有用。特别是，我们将设计一个摘要框架来有效连接文本、图形和版式，并利用新颖的融合机制在空间（例如，文本-图形比率）、结构（例如，兄弟文本-图形）和语义上聚合它们水平（例如，文本-图形互补性）。为了进一步让我们的摘要器具备科学领域知识，我们将设计一组多模态预训练任务，这不仅丰富了我们的摘要器的科学文档的独特属性（例如，按章节内容），而且还学习了交叉不同模式之间的对应关系（例如，在了解每个论文部分的文本-图形比例的情况下生成多模式摘要）。最后，将开发一个基准，即 Paper2Poster，以进一步评估我们的摘要器推进实际科学摘要任务的潜力。 Paper2Poster 不仅要求摘要者俱备抽像源/输入论文中的视觉和文本内容的技能，而且还要求能够以视觉结构的布局输出它们以进行海报演示（例如，之字形）。相应地，我们将使用一个新的概率生成模型来扩展我们的摘要器，该模型支持基于摘要内容语义的内容感知布局生成。

虽然该提案旨在开发用于科学摘要的创新多模态解决方案，但其研究成果对于摘要之外的应用也很有价值，这些应用还需要视觉吸引力和有效的消息/想法沟通，并最终将有助于开发具有有效视觉通信的智能机器技能。

了解更多