日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

多模態(tài)大模型最新論文介紹

2024-12-19 11:42:51·  來源:汽車未來科技Lab  
 

內(nèi)容介紹:動作檢測旨在在視頻中從空間和時間上檢測(識別和定位)人類動作?,F(xiàn)有方法主要關(guān)注閉集設置,即在一個固定動作類別的視頻集上訓練并測試動作檢測器。然而,在開放世界中,測試視頻不可避免地會超出訓練的動作類別,因此這種受限的設置并不可行。在本文中,我們解決了實際且具挑戰(zhàn)性的開放詞匯動作檢測(OVAD)問題。該問題的目標是在使用固定動作類別集訓練模型的同時,檢測測試視頻中的任何動作。為了實現(xiàn)這種開放詞匯的能力,我們提出了一種新方法OpenMixer,該方法利用基于查詢的檢測變換器(DETR)系列中大型視覺語言模型(VLM)的固有語義和可定位性。具體而言,OpenMixer由空間和時間OpenMixer塊(S-OMB和T-OMB)以及動態(tài)融合對齊(DFA)模塊組成。這三個組件共同利用了預訓練VLM的強大泛化能力和DETR設計的端到端學習能力。此外,我們在各種設置下建立了OVAD基準,實驗結(jié)果表明,OpenMixer在檢測已見和未見動作方面均優(yōu)于基線方法。在https://github.com/Cogito2012/OpenMixer上發(fā)布了代碼、模型和數(shù)據(jù)集劃分。

本文研究了開放詞匯動作檢測(OVAD)問題,旨在通過固定動作類別集訓練的模型檢測測試視頻中的任何動作。為解決此問題,提出了OpenMixer方法,該方法結(jié)合了大型視覺語言模型(VLM)的語義和可定位性,以及基于查詢的檢測變換器(DETR)的設計。OpenMixer由空間和時間塊以及動態(tài)融合對齊模塊組成,實現(xiàn)了強大的泛化能力和端到端學習能力。實驗結(jié)果表明,OpenMixer在檢測已見和未見動作方面均優(yōu)于基線方法,相關(guān)代碼和數(shù)據(jù)集已公開發(fā)布。

圖片

2.Large Vision-Language Models for Remote Sensing Visual Question Answering

Authors: Surasakdi Siripong, Apirak Chaiyapan, Thanakorn Phonchai

https://arxiv.org/abs/2411.10857

內(nèi)容介紹:本文提出了一種新穎的遠程遙感視覺問答(RSVQA)方法,該任務旨在解析復雜衛(wèi)星圖像以回答自然語言問題,頗具挑戰(zhàn)性。傳統(tǒng)方法通常依賴于獨立的視覺特征提取器和語言處理模型,這不僅計算量大,而且處理開放式問題的能力有限。新方法則利用生成式大型視覺-語言模型(LVLM)來簡化RSVQA流程,包含兩個訓練步驟:域自適應預訓練和基于提示的微調(diào)。該方法使LVLM能夠根據(jù)視覺和文本輸入生成自然語言答案,無需預定義答案類別。在RSVQAxBEN數(shù)據(jù)集上的評估顯示,該方法性能優(yōu)于最先進的基線方法。此外,人工評估表明,該方法生成的答案更準確、更相關(guān)、更流暢。研究結(jié)果彰顯了生成式LVLM在推動遙感分析領(lǐng)域發(fā)展方面的潛力。

3.VidComposition: Can MLLMs Analyze Compositions in Compiled Videos?

Authors: Yunlong Tang, Junjia Guo, Hang Hua, Susan Liang, Mingqian Feng, Xinyang Li, Rui Mao, Chao Huang, Jing Bi, Zeliang Zhang, Pooyan Fazli, Chenliang Xu

https://arxiv.org/abs/2411.10979

內(nèi)容介紹:隨著多模態(tài)大型語言模型(MLLMs)的發(fā)展,多模態(tài)理解能力取得了顯著進步,尤其是在視頻內(nèi)容分析方面。然而,現(xiàn)有的MLLMs評估基準主要關(guān)注抽象視頻理解,缺乏對視頻構(gòu)成理解能力的詳細評估,即未能細致評估模型如何理解高度編譯的視頻中視覺元素的組合與交互。為此,我們推出了VidComposition這一新基準,它使用精心挑選的編譯視頻和電影級別的注釋,專門用于評估MLLMs的視頻構(gòu)成理解能力。VidComposition包含982個視頻和1706個多項選擇題,涵蓋攝像機運動、角度、鏡頭大小、敘事結(jié)構(gòu)、角色動作和情感等多種構(gòu)成方面。我們對33個開源和專有MLLMs的全面評估顯示,人類與模型的能力之間存在顯著差距,這凸顯了當前MLLMs在理解復雜編譯視頻構(gòu)成方面的局限性,并為進一步改進提供了方向。

圖片

圖片

4. BanglaDialecto: An End-to-End AI-Powered Regional Speech Standardization

Authors: Md. Nazmus Sadat Samin, Jawad Ibn Ahad, Tanjila Ahmed Medha, Fuad Rahman, Mohammad Ruhul Amin, Nabeel Mohammed, Shafin Rahman

https://arxiv.org/abs/2411.10879

內(nèi)容介紹:本研究致力于識別孟加拉國方言,并將多樣化的孟加拉語口音轉(zhuǎn)換為標準化的正式孟加拉語。方言,即特定地區(qū)使用的語言變體,通過語音、發(fā)音和詞匯來區(qū)分,且其細微變化還受到地理位置、教育程度和社會經(jīng)濟地位的影響。為確保有效溝通、教育一致性、技術(shù)獲取、經(jīng)濟機遇,并尊重文化多樣性的同時保護語言資源,方言標準化至關(guān)重要。孟加拉語作為全球第五大使用人數(shù)的語言,擁有約55種方言,被1.6億人使用,因此,解決孟加拉方言問題對于開發(fā)包容性溝通工具至關(guān)重要。然而,由于缺乏全面的數(shù)據(jù)集和處理多樣方言的挑戰(zhàn),相關(guān)研究有限。隨著多語言大型語言模型(mLLMs)的發(fā)展,解決方言自動語音識別(ASR)和機器翻譯(MT)挑戰(zhàn)的新機遇已經(jīng)出現(xiàn)。本研究提出了一種將諾阿哈利方言語音轉(zhuǎn)換為標準孟加拉語語音的端到端流程,包括構(gòu)建包含方言語音信號的大規(guī)模多樣化數(shù)據(jù)集,以定制ASR和mLLM中的微調(diào)過程,用于將方言語音轉(zhuǎn)錄為方言文本,再將方言文本翻譯為標準孟加拉語文本。實驗表明,微調(diào)后的Whisper ASR模型實現(xiàn)了0.8%的字符錯誤率(CER)和1.5%的詞錯率(WER),而BanglaT5模型在方言到標準文本的翻譯中獲得了41.6%的BLEU分數(shù)。我們利用AlignTTS文本到語音(TTS)模型完成了方言標準化的端到端流程。該研究為不同方言的應用奠定了基礎,并為未來孟加拉方言標準化的研究開辟了道路。

圖片

5. LHRS-Bot-Nova: Improved Multimodal Large Language Model for Remote Sensing Vision-Language Interpretation

Authors: Zhenshi Li, Dilxat Muhtar, Feng Gu, Xueliang Zhang, Pengfeng Xiao, Guangjun He, Xiaoxiang Zhu

https://arxiv.org/abs/2411.09301

內(nèi)容介紹:多模態(tài)大型語言模型(Multimodal Large Language Models, MLLMs)的出現(xiàn),在提升觀測系統(tǒng)的效率和便捷性方面展現(xiàn)出了巨大潛力。這些模型不僅能夠參與人類般的對話,還可以作為理解和處理圖像的統(tǒng)一平臺,遵循多樣化的指令并提供深入見解。本研究中,我們介紹了一款專為理解遙感(Remote Sensing, RS)圖像而設計的MLLM——\MODELNAME。這款模型旨在依據(jù)人類指令出色完成一系列RS理解任務。\MODELNAME配備了增強型視覺編碼器和創(chuàng)新性的橋接層,實現(xiàn)了高效的視覺信息壓縮及更好的語言與視覺對齊。為了進一步加強面向RS的視覺-語言對齊,我們提出了一套大規(guī)模的RS圖像-描述數(shù)據(jù)集,該數(shù)據(jù)集是通過特征引導下的圖像重描述生成的。此外,我們還引入了一個特別設計用于提高空間識別能力的指令數(shù)據(jù)集。

大量的實驗驗證了\MODELNAME在各種RS圖像理解任務中的卓越表現(xiàn)。我們還使用復雜的選擇題評估基準來測試不同MLLM在復雜RS感知和指令執(zhí)行方面的性能,為未來的模型選擇和發(fā)展提供了可靠的指南。所有數(shù)據(jù)、代碼和模型將在GitHub頁面上公開(https://github.com/NJU-LHRS/LHRS-Bot)。

圖片 

分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25