Skip to Main Content
Start main Content

Ling U

Ling U

Ling U

Ling U

Ling U

Ling U

Ling U

Ling U

Ling U

Ling U
05.09.2022

AI模型越做越廣 跳出學術覓多元價值


Ling U

Ling U

Ling U

Ling U

Ling U
趙瀚榮

我們對世界的體驗是多「模態」的——我們會通過圖片,聲音,文字去理解事物。同樣地,要讓AI理解周圍的世界,它便需要處理多模態的信號。這個頂尖專家努力鑽研數十年的題目,近年有了新的大變化。隨着視覺、聽覺、語言等單模態AI技術的突破,學者們開始讓AI擁有更接近人類理解多模態信息的能力。

比如在6月,AI研究所DeepMind 發佈文章 ,介紹其一個「可以處理600多種任務的通才AI (Gato)」。Gato不僅能聊天,更可以玩電腦遊戲,甚至操作機械臂。此外,在疫情下,劍橋大學亦有學者提出用咳嗽聲輔以病人提供的病徵分辨病患 (COVID-19 Sounds),概念上和中醫的望,聞,問,切有點相似。

跳出實驗室,有不少多模態AI已應用到實際情景。比如,在北京2022年的冬奧會中,央視新聞就推出了虛擬AI手語主播,為聽障人士進行實時聲音轉手語的翻譯。而在美國,Google 最近就開放其Google Lens 的multisearch 功能作測試,令用家能以圖片輔以文字進行搜索(例如:a reddish dress, 一件微紅的連身裙)。而在香港,嶺大亦有開發多模態應用,例如電腦及決策科學系就開發了智能公廁系統:利用不同感測器去偵測公廁的溫度,濕度及氣味等,從而估計廁所的清潔度和設施的好壞度。另外亦有針對不同模態數據的應用,如腦電波,視線,地理座標,圖節點和電網等。

除實際場景外,另一種應用於設計場景的就是跨模態生成AI。近月,不同的科技公司紛紛推出AI作畫工具,只需要輸入文字,就能獲得不同風格的圖片。例如,在Open AI的DALLE-2系統中輸入「古羅馬的蜘蛛俠」(“Spider-Man from Ancient Rome”),就能生出一幅像羅馬鬥士雕像的蜘蛛俠圖片。 如果你想像力夠豐富,甚至可以創造出屬於自己的產品。例如Youtuber Siraj Raval 就用影片分享如何用生成AI 將自己喜歡的歌曲生成波鞋的設計。

近年來,科技企業聯同學界,陸續發表了一系列的多模態AI模型,已攻克了不少多模態任務。另一方面,隨着視像會議,圖文社交、虛擬主播等應用的湧現,社會不僅增加了對多模態AI的需求,同時也给多模態研究提供了海量的數據和豐富的應用場景。

Ling U

Ling U

Ling U

Ling U

Ling U


本文在2022年9月5日發表在星島日報

Lingu HKIBS Image ALT