中煙創(chuàng)新應(yīng)用多模態(tài)技術(shù)，實現(xiàn)更為高效的人機協(xié)同

投稿用戶 ? 2024年6月14日下午12:46 ? 科研百科 ? 閱讀 36

隨著人工智能技術(shù)的不斷發(fā)展，機器學(xué)習(xí)作為其中的核心分支，已經(jīng)取得了令人矚目的成果。然而，傳統(tǒng)的機器學(xué)習(xí)主要依賴于單一模態(tài)的數(shù)據(jù)，如文本、圖像或音頻等，忽略了不同模態(tài)數(shù)據(jù)之間的豐富信息和互補性。為了充分利用多模態(tài)數(shù)據(jù)中的信息，多模態(tài)機器學(xué)習(xí)應(yīng)運而生，成為了人工智能領(lǐng)域的一個研究熱點。

什么是多模態(tài)

首先我們要了解什么是“模態(tài)”？模態(tài)是指一些表達或感知事物的方式，每一種信息的來源或者形式都可以成為一種模態(tài)。如人體有觸覺、聽覺、嗅覺；信息的媒介有語音、視頻、文字；多種多樣的傳感器，如雷達、紅外、加速計等。多模態(tài)，亦即從多個模態(tài)表達或感知事物。通常主要的研究模態(tài)為文本、語音和視覺。

相較于單模態(tài)，多模態(tài)有什么優(yōu)勢呢？首先，在相同條件下收集的多模態(tài)數(shù)據(jù)使得后續(xù)的分析預(yù)測更加魯棒。其次，多模態(tài)數(shù)據(jù)相較于單模態(tài)數(shù)據(jù)提供了更加完備互補的信息。最后，多模態(tài)系統(tǒng)能夠處理部分模態(tài)數(shù)據(jù)缺失的狀況。單模態(tài)系統(tǒng)在模態(tài)數(shù)據(jù)缺失時會失去功能，例如在人物不說話的時候，單模態(tài)的語音情感識別模型無法分析人的情感；在面部被遮擋的時候，單模態(tài)的表情情感識別模型無法分析人的情感，而融合語音和面部表情的多模態(tài)分類器可以解決以上兩種狀況。

中煙創(chuàng)新應(yīng)用多模態(tài)技術(shù)，實現(xiàn)更為高效的人機協(xié)同

多模態(tài)涉及多模態(tài)學(xué)習(xí)、多模態(tài)交互、多模態(tài)搜索等多個方面，本文中主要探討多模態(tài)學(xué)習(xí)。

多模態(tài)學(xué)習(xí)是指利用來自不同模態(tài)的數(shù)據(jù)進行機器學(xué)習(xí)，這些數(shù)據(jù)可以包括文本、圖像、音頻、視頻等。多模態(tài)學(xué)習(xí)的目標(biāo)是結(jié)合不同模態(tài)的數(shù)據(jù)，挖掘出它們之間的內(nèi)在聯(lián)系和互補信息，以提高機器學(xué)習(xí)模型的性能和泛化能力。

多模態(tài)學(xué)習(xí)原理

多模態(tài)學(xué)習(xí)主要分為模型無關(guān)和模型相關(guān)。模型無關(guān)的劃分不依賴于特定的機器學(xué)習(xí)算法，主要關(guān)注模態(tài)的融合階段；模型相關(guān)的劃分則關(guān)注特定類型的機器學(xué)習(xí)算法。

模型無關(guān)多模態(tài)學(xué)習(xí)是最早的研究內(nèi)容，優(yōu)點在于可以使用任意單模態(tài)分類器或者回歸器實現(xiàn)。模型無關(guān)的多模態(tài)學(xué)習(xí)分為早期融合、后期融合以及混合融合三類。早期融合通過利用模態(tài)之間的相關(guān)性和交互性從特征層出發(fā)進行表示學(xué)習(xí)，常見方法有串接和主成分分析。早期融合在訓(xùn)練階段只需要一個模型，相較于后期融合和混合融合更簡單。然而當(dāng)模態(tài)存在缺失或者模態(tài)不配對時，早期融合無法很好利用該模態(tài)信息。后期融合在模型決策階段進行融合，為每一個模態(tài)訓(xùn)練一個模型，可以輕松處理模態(tài)缺失的問題。然而后期融合忽略了模態(tài)之間低層語義的相關(guān)關(guān)系?；旌先诤辖Y(jié)合早期融合和后期融合，可以解決模態(tài)缺失和利用模態(tài)低層語義的相關(guān)關(guān)系，在多媒體事件檢測等領(lǐng)域取得的成功應(yīng)用。

由于模型無關(guān)的多模態(tài)學(xué)習(xí)很容易使用單模態(tài)方法實現(xiàn)，沒有針對多模態(tài)數(shù)據(jù)進行方法研究，因此并不能很好的捕捉多模態(tài)的聯(lián)合表示方式。模型相關(guān)的多模態(tài)學(xué)習(xí)從模型角度入手對多模態(tài)數(shù)據(jù)進行研究，主要有三類方法：基于核方法的、基于概率圖模型的和基于神經(jīng)網(wǎng)絡(luò)的方法。這三類方法的原理不在此細究。

中煙創(chuàng)新應(yīng)用多模態(tài)技術(shù)，實現(xiàn)更為高效的人機協(xié)同

多模態(tài)學(xué)習(xí)優(yōu)點

Jeff Dean在2019年年底NeurIPS大會上提到機器學(xué)習(xí)趨勢：多任務(wù)和多模態(tài)將成為突破口。多模態(tài)是未來機器學(xué)習(xí)的趨勢，因為它具有以下優(yōu)點：

信息豐富性：不同模態(tài)的數(shù)據(jù)提供了豐富的信息，如文本描述了事物的概念和屬性，圖像展示了事物的外觀和結(jié)構(gòu)，音頻則反映了事物的聲音和節(jié)奏。結(jié)合這些信息，可以更全面地了解事物的本質(zhì)和特征。

互補性：不同模態(tài)的數(shù)據(jù)在某些情況下可能存在噪聲或缺失，而多模態(tài)學(xué)習(xí)可以利用其他模態(tài)的數(shù)據(jù)進行補充和糾正，從而提高模型的魯棒性和準(zhǔn)確性。

泛化能力：多模態(tài)學(xué)習(xí)可以幫助模型學(xué)習(xí)到不同模態(tài)數(shù)據(jù)之間的共同規(guī)律和模式，從而增強模型的泛化能力，使其能夠處理更多樣化和復(fù)雜的數(shù)據(jù)。

多模態(tài)的挑戰(zhàn)與方法

雖然多模態(tài)學(xué)習(xí)具有巨大的潛力，但在表征和特征融合等方面仍存在一些問題，我將其分為了五大挑戰(zhàn)：

特征表達：通過多模態(tài)特征的互補性，有針對性選擇和設(shè)計相應(yīng)的模型和算法來表達多模態(tài)數(shù)據(jù)。但多模態(tài)數(shù)據(jù)的異構(gòu)型使得構(gòu)造這種語義統(tǒng)一的表達具有較大的挑戰(zhàn)性。例如，純文本大多形式是助記符，但音頻和視覺數(shù)據(jù)表達形式卻是信號。

映射：它實現(xiàn)將數(shù)據(jù)從一種模態(tài)關(guān)聯(lián)到另一種模態(tài)。不僅數(shù)據(jù)異構(gòu)，在大多情況下不同模態(tài)之間的關(guān)聯(lián)是通過人的主觀從語義角度認定的關(guān)聯(lián)。因此這種人為認定的關(guān)聯(lián)，常被按照人為理解的方式關(guān)聯(lián)在一起，而這種關(guān)聯(lián)方式未必是最優(yōu)的。

同步：將來自兩個不同模態(tài)數(shù)據(jù)中的相應(yīng)部分的同步，難以對齊。例如，希望將視頻與需要同步的字幕文本對齊。為了解決這個對齊問題，需要考察不同模態(tài)之間的相似性，而選擇合適的相似性度量標(biāo)準(zhǔn)也是一個挑戰(zhàn)。

融合：將多個模態(tài)的信息融合起來完成預(yù)測。因不同模態(tài)的數(shù)據(jù)可能具有不同的信息量和噪聲，帶有不同信息量的數(shù)據(jù)之間的融合可能導(dǎo)致預(yù)測能力下降。

協(xié)同學(xué)習(xí)：這個挑戰(zhàn)主要在于模式、表達和預(yù)測模型之間傳遞知識。協(xié)同學(xué)習(xí)有助于在一個不同的的模態(tài)上計算另一個模型。

為了解決這些挑戰(zhàn)，我們需要不斷優(yōu)化數(shù)據(jù)獲取與處理流程、涉及高效的融合策略、充分利用深度學(xué)習(xí)技術(shù)，以解決多模態(tài)學(xué)習(xí)在表征、對齊、融合等方面的難題。

多模態(tài)的應(yīng)用前景

多模態(tài)能夠應(yīng)用在具有同源不同視角數(shù)據(jù)的應(yīng)用場合：視聽語音識別、圖像標(biāo)注、行為檢測、跨模態(tài)檢索、跨模態(tài)哈希、視頻跟蹤等。

視聽語音識別：最早的多模態(tài)學(xué)習(xí)應(yīng)用是視聽語音識別，現(xiàn)在最新的應(yīng)用是視頻標(biāo)注，它可以根據(jù)視頻，生成視頻對應(yīng)的文本描述。

跨模態(tài)檢索：隨著文本、圖像、視頻、音頻和三維模型等多媒體數(shù)據(jù)的快速增長，跨媒體檢索越來越具有吸引力，用戶可以通過這些數(shù)據(jù)獲得不同的結(jié)果。通過輸入眾多媒體類型的任一種類型輸入作為查詢條件，檢索得到同一類型或者不同類型語義匹配的異構(gòu)的媒體數(shù)據(jù)。

多模態(tài)機器學(xué)習(xí)作為人工智能領(lǐng)域的一個重要分支，具有廣闊的應(yīng)用前景和巨大的發(fā)展?jié)摿?。隨著技術(shù)的不斷進步和應(yīng)用場景的不斷拓展，多模態(tài)學(xué)習(xí)將在未來發(fā)揮更加重要的作用，推動人工智能技術(shù)的不斷創(chuàng)新和發(fā)展。

多模態(tài)交互技術(shù)一直是北京中煙創(chuàng)新科技有限公司（簡稱：中煙創(chuàng)新）研究重要方向之一，多模態(tài)交互在中煙創(chuàng)新多產(chǎn)品和項目中都有應(yīng)用，多模態(tài)交互技術(shù)和中煙創(chuàng)新智慧審核平臺有機結(jié)合，實現(xiàn)了更為高效的人機協(xié)同。

在多模態(tài)交互技術(shù)的推動下，人機協(xié)同的方式將越來越多樣化、智能化。未來，中煙創(chuàng)新將多模態(tài)交互技術(shù)和人機協(xié)同應(yīng)用到各個領(lǐng)域，提升人類的交互品質(zhì)和辦公效率。

版權(quán)聲明：本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻，該文觀點僅代表作者本人。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容，請發(fā)送郵件至舉報，一經(jīng)查實，本站將立刻刪除。

贊 (0)

投稿用戶

個人科研項目管理工具有哪些個人科研項目管理工具有哪些

上一篇 2024年6月14日下午12:40

科研項目簡單可行性報告怎么寫科研項目簡單可行性報告怎么寫

下一篇 2024年6月14日下午12:51

重大突破！華師首次獲批國家自然科學(xué)基金重大項目（華中師范大學(xué)國家自然科學(xué)基金）

長江日報大武漢客戶端12月6日訊12月6日，長江日報記者從華中師范大學(xué)獲悉，由該校人工智能教育學(xué)部楊宗凱教授主持申報的國家自然科學(xué)基金重大項目——“人工智能賦能教與學(xué)的理論與關(guān)鍵技…

投稿用戶
科研百科 2024年4月16日
670
科研百科

政策解讀｜中小企業(yè)貸款優(yōu)惠政策-解決小微企業(yè)資金周轉(zhuǎn)問題（支持小微企業(yè)貸款政策）

　為了幫助小微企業(yè)擺脫經(jīng)營困境，近期國家相關(guān)部門出臺了為疫情中高風(fēng)險地區(qū)小微企業(yè)提供免息貸款的幫扶政策，解決小微企業(yè)的資金周轉(zhuǎn)問題，那么中小企業(yè)有哪些優(yōu)惠政策呢？一、中小企業(yè)貸款…

投稿用戶
2022年8月1日
6580
科研項目性質(zhì)

科研項目性質(zhì) 科研項目是一種旨在研究科學(xué)問題或探索自然現(xiàn)象的系統(tǒng)性活動。這些項目通常由科學(xué)家、工程師、研究人員和其他專業(yè)人士組成，旨在開發(fā)新的理論、發(fā)現(xiàn)新的自然規(guī)律或解決現(xiàn)有的科學(xué)…

投稿用戶
科研百科 2024年10月2日
30
濟南市科學(xué)技術(shù)獎申報(濟南市科研項目申報獎勵怎么發(fā)放)

濟南市科研項目申報獎勵怎么發(fā)放？近年來，濟南市政府高度重視科技創(chuàng)新，推出了一系列支持科技創(chuàng)新的政策和措施。同時，為了鼓勵科研機構(gòu)和科技創(chuàng)新團隊加大研發(fā)投入，提高科技創(chuàng)新水平，濟南…

投稿用戶
科研百科 2024年4月4日
1000
智慧黨建系統(tǒng)，打造高效的工作服務(wù)平臺（智慧黨建系統(tǒng),打造高效的工作服務(wù)平臺建設(shè)）

治國必先治黨，十八大以后，黨中央做出了全面從嚴(yán)治黨的戰(zhàn)略決策。隨著國家黨建工作的新思路、新戰(zhàn)略，互聯(lián)網(wǎng)技術(shù)與黨建工作相結(jié)合是時代發(fā)展的必然趨勢。　　藍創(chuàng)科技智慧黨建系統(tǒng)將傳統(tǒng)黨建…

投稿用戶
科研百科 2023年10月6日
1620
甘特圖項目進度管理

甘特圖項目進度管理項目進度管理是項目管理中非常重要的一環(huán)，它能夠有效地控制項目進度，確保項目按時完成。甘特圖是項目進度管理中常用的工具之一，能夠幫助項目管理人員清晰地展現(xiàn)項目的進…

投稿用戶
科研百科 2024年9月24日
60
安慶大觀區(qū)：以“黨建項目化”推動基層黨建提質(zhì)增效（以黨建項目化為抓手）

來源：人民網(wǎng)－安徽頻道今年以來，安慶市大觀區(qū)集賢路街道蔡山社區(qū)深入貫徹落實新時代黨的建設(shè)總要求，以“黨建項目化”為抓手，把黨建重點任務(wù)和難點問題細化為具體項目，集中優(yōu)勢、攻堅破局…

投稿用戶
科研百科 2023年7月6日
3050
四標(biāo)驅(qū)動“提質(zhì)聚力”引領(lǐng)機關(guān)黨建高質(zhì)量發(fā)展（黨建四標(biāo)行動爭創(chuàng)指標(biāo)）

宜賓市委目標(biāo)績效辦召開機關(guān)黨委（擴大）會議 3月29日下午，宜賓市委目標(biāo)績效辦機關(guān)黨委召開黨建工作專題會議，市委副秘書長、市委目標(biāo)績效辦主任何春琳出席會議并講話，機關(guān)黨委書記陳若云…

投稿用戶
科研百科 2024年1月31日
1420
科研項目的cra

科研項目的cra 科研項目的cra(Customer Experience Research Analyst)是負責(zé)與科學(xué)家和研究人員合作，收集和分析客戶反饋，改進用戶體驗，并協(xié)助…

投稿用戶
科研百科 3天前
10
象棋特級大師能下過軟件嗎？棋友們的答案是一致的就是下不過嘛

一：這個問題我可以回答你！作為一個玩棋軟十幾年的資深玩家，我可以明確告訴你，現(xiàn)在的特大基本上不可能下贏軟件，和都不容易！本人QQ象棋評測業(yè)余大師，象棋特大王天一在QQ象棋評測也只是…

投稿用戶
科研百科 2024年5月23日
540

中煙創(chuàng)新應(yīng)用多模態(tài)技術(shù)，實現(xiàn)更為高效的人機協(xié)同

相關(guān)推薦

中煙創(chuàng)新應(yīng)用多模態(tài)技術(shù)，實現(xiàn)更為高效的人機協(xié)同