熱門搜尋

將視覺語言特徵納入科學文獻摘要

Incorporating Visual-Linguistic Features into Scientific Document Summarization

自 COVID-19 出現以來，已經發表了數以萬計的研究論文（尤其是在醫學等科學領域），僅靠人工很難跟踪如此快速的進展。前所未有的緊迫性迫切需要先進的自然語言處理（NLP）技術來進行科學文獻摘要，以幫助科學家快速掌握文獻中的主要見解。科學文獻被認為是視覺豐富的文檔，不僅傳達文本，還傳達丰富的視覺語言內容，例如圖形和版式，它們攜帶重要信息。例如，圖形可以補充文本摘要，項目符號佈局等排版可以表示研究亮點。因此，總結文獻需要一個結合文本、圖形和版式的多模態模型。然而，科學 NLP 的發展尚未跟上這一趨勢，前沿的總結者大多是純文本的。這奠定了該提案的目標：研究視覺語言信息在科學概括中的使用。

視覺語言信息已被證明對於文本理解任務很有用。我們認為它對於文本生成也很有用。特別是，我們將設計一個摘要框架來有效連接文本、圖形和版式，並利用新穎的融合機制在空間（例如，文本-圖形比率）、結構（例如，兄弟文本-圖形）和語義上聚合它們水平（例如，文本-圖形互補性）。為了進一步讓我們的摘要器具備科學領域知識，我們將設計一組多模態預訓練任務，這不僅豐富了我們的摘要器的科學文檔的獨特屬性（例如，按章節內容），而且還學習了交叉不同模式之間的對應關係（例如，在了解每個論文部分的文本-圖形比例的情況下生成多模式摘要）。最後，將開發一個基準，即 Paper2Poster，以進一步評估我們的摘要器推進實際科學摘要任務的潛力。 Paper2Poster 不僅要求摘要者俱備抽像源/輸入論文中的視覺和文本內容的技能，而且還要求能夠以視覺結構的佈局輸出它們以進行海報演示（例如，之字形）。相應地，我們將使用一個新的概率生成模型來擴展我們的摘要器，該模型支持基於摘要內容語義的內容感知佈局生成。

雖然該提案旨在開發用於科學摘要的創新多模態解決方案，但其研究成果對於摘要之外的應用也很有價值，這些應用還需要視覺吸引力和有效的消息/想法溝通，並最終將有助於開發具有有效視覺通信的智能機器技能。

了解更多