基于場(chǎng)景圖知識(shí)的文本到圖像行人重識(shí)別
模式識(shí)別與人工智能
頁數(shù): 13 2024-11-15
摘要: 現(xiàn)有的大多數(shù)文本到圖像的行人重識(shí)別方法對(duì)CLIP(Contrastive Language-Image Pretraining)等視覺語言模型進(jìn)行微調(diào)以適應(yīng)行人重識(shí)別任務(wù),并獲得預(yù)訓(xùn)練模型的強(qiáng)大視覺語言聯(lián)合表征能力,然而,這些方法通常只考慮對(duì)下游重識(shí)別任務(wù)的任務(wù)適應(yīng),卻忽視由于數(shù)據(jù)差異所需的數(shù)據(jù)域適應(yīng),難以有效捕獲結(jié)構(gòu)化知識(shí)(理解對(duì)象屬性及對(duì)象間關(guān)系).針對(duì)這些問題,基于CLI... (共13頁)
開通會(huì)員,享受整站包年服務(wù)