將視覺語言特徵納入科學文獻摘要

Incorporating Visual-Linguistic Features into Scientific Document Summarization

自 COVID-19 出現以來,已經發表了數以萬計的研究論文(尤其是在醫學等科學領域),僅靠人工很難跟踪如此快速的進展。前所未有的緊迫性迫切需要先進的自然語言處理(NLP)技術來進行科學文獻摘要,以幫助科學家快速掌握文獻中的主要見解。科學文獻被認為是視覺豐富的文檔,不僅傳達文本,還傳達丰富的視覺語言內容,例如圖形和版式,它們攜帶重要信息。例如,圖形可以補充文本摘要,項目符號佈局等排版可以表示研究亮點。因此,總結文獻需要一個結合文本、圖形和版式的多模態模型。然而,科學 NLP 的發展尚未跟上這一趨勢,前沿的總結者大多是純文本的。這奠定了該提案的目標:研究視覺語言信息在科學概括中的使用。

 

視覺語言信息已被證明對於文本理解任務很有用。我們認為它對於文本生成也很有用。特別是,我們將設計一個摘要框架來有效連接文本、圖形和版式,並利用新穎的融合機制在空間(例如,文本-圖形比率)、結構(例如,兄弟文本-圖形)和語義上聚合它們水平(例如,文本-圖形互補性)。為了進一步讓我們的摘要器具備科學領域知識,我們將設計一組多模態預訓練任務,這不僅豐富了我們的摘要器的科學文檔的獨特屬性(例如,按章節內容),而且還學習了交叉不同模式之間的對應關係(例如,在了解每個論文部分的文本-圖形比例的情況下生成多模式摘要)。最後,將開發一個基準,即 Paper2Poster,以進一步評估我們的摘要器推進實際科學摘要任務的潛力。 Paper2Poster 不僅要求摘要者俱備抽像源/輸入論文中的視覺和文本內容的技能,而且還要求能夠以視覺結構的佈局輸出它們以進行海報演示(例如,之字形)。相應地,我們將使用一個新的概率生成模型來擴展我們的摘要器,該模型支持基於摘要內容語義的內容感知佈局生成。

 

雖然該提案旨在開發用於科學摘要的創新多模態解決方案,但其研究成果對於摘要之外的應用也很有價值,這些應用還需要視覺吸引力和有效的消息/想法溝通,並最終將有助於開發具有有效視覺通信的智能機器技能。