• <rt id="2wkqu"><small id="2wkqu"></small></rt>
  • 您當(dāng)前的位置 :環(huán)球傳媒網(wǎng)>健康 > 正文
    小紅書(shū)提出 OvarNet 模型:開(kāi)集預(yù)測(cè)的新SOTA,“萬(wàn)物識(shí)別”新玩法-焦點(diǎn)資訊
    2023-06-23 14:09:20 來(lái)源:量子位 編輯:

    在 CVPR2023 上,小紅書(shū)社區(qū)技術(shù)團(tuán)隊(duì)提出了一項(xiàng)全新任務(wù) —— Open-vocabulary Object Attribute Recognition(面向開(kāi)放詞匯的目標(biāo)檢測(cè)與屬性識(shí)別)。該任務(wù)旨在采用單一模型對(duì)圖像中任何類(lèi)別目標(biāo)同時(shí)進(jìn)行定位、分類(lèi)和屬性預(yù)測(cè),從而推動(dòng)目標(biāo)識(shí)別能力向更高的深度和廣度發(fā)展。


    (資料圖片)

    本文提出了 OvarNet 這一全新模型,OvarNet 基于海量多模態(tài)數(shù)據(jù)預(yù)訓(xùn)練的視覺(jué)語(yǔ)言模型開(kāi)發(fā),利用可獲得的目標(biāo)檢測(cè)和屬性識(shí)別數(shù)據(jù)進(jìn)行 Prompt Learning(提示式學(xué)習(xí))。同時(shí),為了進(jìn)一步獲得高度可用的 Zero-shot 識(shí)別能力,團(tuán)隊(duì)從大規(guī)模圖文數(shù)據(jù)中提取細(xì)粒度的類(lèi)別和屬性表示,進(jìn)行弱監(jiān)督學(xué)習(xí)。此外,小紅書(shū)還采用知識(shí)蒸餾的方式簡(jiǎn)化模型計(jì)算復(fù)雜度,顯著提升 OvarNet 的實(shí)用性和時(shí)效性。實(shí)驗(yàn)結(jié)果表明,OvarNet 在開(kāi)集目標(biāo)檢測(cè)和屬性識(shí)別任務(wù)上取得了新 SOTA,證明了識(shí)別語(yǔ)義類(lèi)別和屬性對(duì)于視覺(jué)場(chǎng)景理解的互補(bǔ)性。

    理解視覺(jué)場(chǎng)景中的目標(biāo)一直以來(lái)都是計(jì)算機(jī)視覺(jué)發(fā)展的主要驅(qū)動(dòng)力,例如,目標(biāo)檢測(cè)任務(wù)的目的是在圖像中定位出目標(biāo)并為其分配預(yù)定義的語(yǔ)義標(biāo)簽,如“汽車(chē)”、“人”或“杯子”。盡管目標(biāo)檢測(cè)算法取得了巨大的成功,但是這種任務(wù)定義在很大程度上簡(jiǎn)化了人們對(duì)視覺(jué)世界的理解,因?yàn)橐粋€(gè)視覺(jué)目標(biāo)除了語(yǔ)義類(lèi)別外,還可以從許多其他方面進(jìn)行描述,例如,一輛公共汽車(chē)可以是“黃色”或“黑色”,一件襯衫可以是“條紋”或“無(wú)圖案”。因此,學(xué)習(xí)屬性可以補(bǔ)充類(lèi)別級(jí)別的識(shí)別,從而獲得更全面更細(xì)粒度的視覺(jué)感知。

    已有大量的研究表明,理解目標(biāo)的屬性可以極大地促進(jìn)目標(biāo)識(shí)別和檢測(cè),甚至是對(duì)在訓(xùn)練集中極少出現(xiàn)或根本沒(méi)有的視覺(jué)目標(biāo)樣例。然而,這些開(kāi)創(chuàng)性工作中所考慮的問(wèn)題和今天的標(biāo)準(zhǔn)相去甚遠(yuǎn),例如,屬性分類(lèi)通常在以目標(biāo)為中心的圖像上進(jìn)行訓(xùn)練和評(píng)估,而且屬性的類(lèi)別是固定的,有時(shí)甚至將目標(biāo)的類(lèi)別作為已知的先驗(yàn)。

    在論文中,小紅書(shū)社區(qū)技術(shù)團(tuán)隊(duì)考慮在開(kāi)放詞匯場(chǎng)景下同時(shí)檢測(cè)目標(biāo)并分類(lèi)屬性的任務(wù),即模型僅在一組可見(jiàn)的目標(biāo)類(lèi)別和屬性上進(jìn)行訓(xùn)練,但在測(cè)試時(shí)需要推廣到未見(jiàn)過(guò)的目標(biāo)類(lèi)別和屬性,如下圖所示。完成這些任務(wù)能觀察到三個(gè)主要挑戰(zhàn):(1) 首先,在現(xiàn)有的視覺(jué)語(yǔ)言模型中,例如 CLIP 和 ALIGN,從圖文對(duì)中學(xué)習(xí)得到的表示往往偏向于目標(biāo)類(lèi)別,而不是屬性,這導(dǎo)致在直接用于屬性識(shí)別任務(wù)時(shí)存在特征不對(duì)齊的問(wèn)題;(2) 其次,沒(méi)有理想的訓(xùn)練數(shù)據(jù)集同時(shí)包含三種類(lèi)型(目標(biāo)框、類(lèi)別和屬性)的標(biāo)注。據(jù)研究人員所知,只有 COCO Attributes 數(shù)據(jù)集提供這樣程度的標(biāo)注,但它的詞匯量相對(duì)有限 ( 196 個(gè)屬性,29 個(gè)類(lèi)別);(3) 第三,在統(tǒng)一框架下訓(xùn)練這三項(xiàng)任務(wù)仍未被探索,具有一定到挑戰(zhàn)性,即在開(kāi)放詞匯場(chǎng)景下同時(shí)定位(“在哪里”)和描述目標(biāo)的語(yǔ)義類(lèi)別和屬性(“是什么”)。

    為了解決上述問(wèn)題,小紅書(shū)社區(qū)技術(shù)團(tuán)隊(duì)從一個(gè)簡(jiǎn)單的架構(gòu)開(kāi)始,稱(chēng)為 CLIP-Attr。該架構(gòu)首先通過(guò)離線 RPN 從圖像中提取目標(biāo)候選框,然后通過(guò)比較屬性詞嵌入和候選目標(biāo)的視覺(jué)嵌入之間的相似度來(lái)實(shí)現(xiàn)開(kāi)放式詞匯目標(biāo)屬性識(shí)別。為了更好地對(duì)齊屬性詞和候選目標(biāo)之間的特征,在文本編碼器端引入可學(xué)習(xí)的 prompt 向量,并在大量的圖文對(duì)數(shù)據(jù)上微調(diào)原始 CLIP 模型。為了進(jìn)一步提高模型效率,團(tuán)隊(duì)提出了 OvarNet,這是一個(gè)統(tǒng)一的框架,可以在一次前向傳播中進(jìn)行檢測(cè)和屬性識(shí)別。

    OvarNet 是通過(guò)在目標(biāo)檢測(cè)和屬性預(yù)測(cè)兩個(gè)數(shù)據(jù)集上訓(xùn)練,并通過(guò)蒸餾 CLIP-Attr 模型的知識(shí)來(lái)提高在 novel/unseen 屬性的性能。小紅書(shū)社區(qū)技術(shù)團(tuán)隊(duì)提出的 OvarNet 是第一個(gè)可擴(kuò)展的管道,在開(kāi)放詞匯場(chǎng)景下可以同時(shí)定位目標(biāo),并同時(shí)推斷視覺(jué)屬性和目標(biāo)類(lèi)別。實(shí)驗(yàn)結(jié)果表明,盡管只使用弱監(jiān)督的圖文對(duì)數(shù)據(jù)對(duì) OvarNet 進(jìn)行蒸餾,但它在 VAW、MSCOCO、LSA 和 OVAD 數(shù)據(jù)集上的表現(xiàn)優(yōu)于先前的最新技術(shù),展現(xiàn)了對(duì)新屬性和類(lèi)別的強(qiáng)大泛化能力。

    方法主要分為 3 步:首先,利用目標(biāo)檢測(cè)數(shù)據(jù)和屬性預(yù)測(cè)數(shù)據(jù)在開(kāi)放詞匯場(chǎng)景下訓(xùn)練一個(gè)簡(jiǎn)單的兩階段的方法;然后,通過(guò)利用大量的圖文對(duì)數(shù)據(jù)進(jìn)一步微調(diào)這個(gè)兩階段模型以提高在 novel/unseen 類(lèi)別和屬性上的性能;最后,為了保證泛化性和前傳速度,團(tuán)隊(duì)基于知識(shí)蒸餾的范式設(shè)計(jì)了一個(gè)一階段的算法。

    2.1 兩階段算法

    作為社交圖譜數(shù)據(jù),數(shù)據(jù)的一致性至關(guān)重要。需要嚴(yán)格保證數(shù)據(jù)的最終一致性以及一定場(chǎng)景下的強(qiáng)一致性。為此,小紅書(shū)社區(qū)技術(shù)團(tuán)隊(duì)采取了以下措施:

    作為社交圖譜數(shù)據(jù),數(shù)據(jù)的一致性至關(guān)重要。需要嚴(yán)格保證數(shù)據(jù)的最終一致性以及一定場(chǎng)景下的強(qiáng)一致性。為此,團(tuán)隊(duì)采取了以下措施:

    2.2 圖文對(duì)數(shù)據(jù)微調(diào)

    首先,對(duì)圖文對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,從句子中解析出類(lèi)別詞、屬性詞、和名詞短語(yǔ);隨后,使用預(yù)訓(xùn)練的 CLIP-Attr 對(duì)數(shù)據(jù)進(jìn)行偽標(biāo)簽標(biāo)注;最后為了避免噪聲標(biāo)簽的影響,通過(guò)多實(shí)例 NCE 損失進(jìn)行監(jiān)督訓(xùn)練。

    下圖給出了利用海量圖文對(duì)數(shù)據(jù)微調(diào) CLIP-Attr 的網(wǎng)絡(luò)結(jié)構(gòu)圖。

    2.3 單階段蒸餾算法

    盡管通過(guò)預(yù)先計(jì)算的提議框和上述的 CLIP-Attr 模型可以實(shí)現(xiàn)開(kāi)放詞匯目標(biāo)屬性預(yù)測(cè),但其推理過(guò)程非常耗時(shí),因?yàn)槊恳粋€(gè)裁剪后的區(qū)域都會(huì)輸入到視覺(jué)編碼器中。在這一部分,目標(biāo)是解決緩慢的推理速度,端到端地訓(xùn)練一個(gè)用于目標(biāo)檢測(cè)和屬性預(yù)測(cè)的 Faster-RCNN 類(lèi)型的模型,稱(chēng)為 OvarNet。圖像會(huì)被依次經(jīng)過(guò)視覺(jué)編碼器、類(lèi)別無(wú)關(guān)的區(qū)域提議網(wǎng)絡(luò)和開(kāi)放詞匯屬性分類(lèi)網(wǎng)絡(luò)。

    下圖是其整體網(wǎng)絡(luò)框架。為了提高模型處理未知類(lèi)別和屬性的能力,進(jìn)一步加入了 CLIP-Attr 模型的額外知識(shí)進(jìn)行蒸餾。

    小紅書(shū)社區(qū)技術(shù)團(tuán)隊(duì)考慮的開(kāi)放詞匯目標(biāo)屬性識(shí)別包括兩個(gè)子任務(wù):開(kāi)放詞匯目標(biāo)檢測(cè)和對(duì)所有檢測(cè)到的目標(biāo)進(jìn)行屬性分類(lèi)。所采用的數(shù)據(jù)集有 MS-COCO、VAW、LSA 和 OVAD。為了評(píng)估模型的性能,在指標(biāo)評(píng)價(jià)上同時(shí)考慮 box-given 和 box-free 的設(shè)定,使用 mAP 進(jìn)行評(píng)價(jià)。

    3.1 COCO 和 VAW 上的結(jié)果

    3.2 OVAD 和 LSA 上的結(jié)果

    3.3 一些可視化結(jié)果

    本文探討了開(kāi)放詞匯目標(biāo)檢測(cè)和屬性識(shí)別問(wèn)題,即同時(shí)定位目標(biāo)并推斷它們的語(yǔ)義類(lèi)別和視覺(jué)屬性。小紅書(shū)社區(qū)技術(shù)團(tuán)隊(duì)從一個(gè)簡(jiǎn)單的兩階段框架( CLIP-Attr )開(kāi)始,使用預(yù)訓(xùn)練的 CLIP 對(duì)目標(biāo)提議進(jìn)行分類(lèi)。為了更好地對(duì)齊以目標(biāo)為中心的視覺(jué)特征與屬性概念,在文本編碼器側(cè)使用可學(xué)習(xí)提示向量。在訓(xùn)練方面,采用聯(lián)合訓(xùn)練策略來(lái)利用目標(biāo)檢測(cè)和屬性預(yù)測(cè)數(shù)據(jù)集,并探索一種弱監(jiān)督訓(xùn)練方案,利用外部圖像-文本對(duì)增加識(shí)別新屬性的魯棒性。最后,為了提高計(jì)算效率,將 CLIP-Attr 的知識(shí)蒸餾到一種 Faster-RCNN 類(lèi)型的模型中(稱(chēng)為 OvarNet)。在 VAW、MS-COCO、LSA 和 OVAD 等四個(gè)不同的基準(zhǔn)評(píng)估中,團(tuán)隊(duì)表明聯(lián)合訓(xùn)練目標(biāo)檢測(cè)和屬性預(yù)測(cè)有助于視覺(jué)場(chǎng)景理解,并大大優(yōu)于現(xiàn)有方法獨(dú)立處理兩個(gè)任務(wù)的方法,展示了強(qiáng)大的泛化能力,可以處理新的屬性和類(lèi)別。

    對(duì)內(nèi)容的充分理解,是實(shí)現(xiàn)內(nèi)容推薦和檢索的有效工具。在小紅書(shū)雙列布局場(chǎng)景下,對(duì)筆記封面圖篇的理解就顯得格外重要。采用本文所示的開(kāi)集目標(biāo)屬性識(shí)別能力,可以在更細(xì)粒度上對(duì)封面圖進(jìn)行結(jié)構(gòu)化理解。比如除了可以檢測(cè)到人物之外,還可以進(jìn)一步標(biāo)記人物衣著、姿態(tài)等屬性,從而在進(jìn)行推薦和檢索時(shí),實(shí)現(xiàn)更加智能和個(gè)性化的內(nèi)容推薦。此外,在構(gòu)建小紅書(shū)的內(nèi)容質(zhì)量體系時(shí),通過(guò)對(duì)圖片的充分解析,能夠更精確地描述一篇筆記的質(zhì)量分級(jí),進(jìn)而實(shí)現(xiàn)內(nèi)容基于質(zhì)量的差異化分發(fā)。

    論文地址:https://arxiv.org/abs/2301.09506

    陳科研

    現(xiàn)博士就讀于北京航空航天大學(xué),曾在 Proceedings of the IEEE、TGRS、CVPR 等發(fā)表多篇論文。主要研究方向?yàn)檫b感圖像處理,多模態(tài)學(xué)習(xí)。

    萊戈

    小紅書(shū)生態(tài)算法團(tuán)隊(duì)負(fù)責(zé)人。曾在 CVPR、ICCV、ECCV、TNNLS、TGRS 等會(huì)刊發(fā)表 10 余篇論文,曾獲 YouTube-VOS 視頻分割競(jìng)賽 Top-3 排名,曾獲天池視覺(jué)分割大獎(jiǎng)賽復(fù)賽第 1 名。主要研究方向:目標(biāo)跟蹤、視頻分割、多模態(tài)分類(lèi)/檢索等。

    湯神

    小紅書(shū)智能創(chuàng)作團(tuán)隊(duì)負(fù)責(zé)人。曾在 CVPR、ECCV、ICCV、TIFS、ACMMM 等會(huì)議與期刊發(fā)表近 20 篇論文。多次刷新 WiderFace 和 FDDB 國(guó)際榜單世界記錄,ICCV Wider Challenge 人臉檢測(cè)國(guó)際競(jìng)賽冠軍,ICCV VOT 單目標(biāo)跟蹤冠軍,CVPR UG2+亞軍。

    算法工程師-社區(qū)生態(tài)

    崗位職責(zé):

    1. 職責(zé)包括但不限于圖文、視頻等多模態(tài)內(nèi)容的分類(lèi)、檢索、去重等工作,旨在優(yōu)化平臺(tái)內(nèi)容生態(tài)、提升內(nèi)容質(zhì)量和分發(fā)效率,提高用戶體驗(yàn);

    2. 負(fù)責(zé) CV 相關(guān)算法研發(fā),包括但不限于:圖像/視頻分類(lèi)、圖像檢測(cè)/分割、視頻理解、人臉識(shí)別、OCR、自監(jiān)督學(xué)習(xí)等;

    3. 負(fù)責(zé) NLP 相關(guān)算法研發(fā),包括但不限于:文本分析、語(yǔ)義分析、事件提取、分類(lèi)、聚類(lèi)、情感、問(wèn)答、關(guān)系抽取、知識(shí)圖譜等;

    4. 完成算法的快速實(shí)現(xiàn)以及大規(guī)模工業(yè)化部署,參與創(chuàng)新性算法的研究以及開(kāi)發(fā)工作;提供系統(tǒng)解決方案,打造可復(fù)用的社區(qū)業(yè)務(wù)平臺(tái)能力,提升社區(qū)核心服務(wù)穩(wěn)定性; 有互聯(lián)網(wǎng)內(nèi)容生態(tài)相關(guān)技術(shù)從業(yè)經(jīng)驗(yàn)者優(yōu)先;

    任職要求:

    1. 計(jì)算機(jī)/電子信息/自動(dòng)控制/軟件工程/數(shù)學(xué)等相關(guān)專(zhuān)業(yè),碩士及以上學(xué)歷

    2. 優(yōu)秀的分析、解決問(wèn)題能力,對(duì)新技術(shù)充滿好奇,敢于挑戰(zhàn)高難度,善于提出解決方案并快速驗(yàn)證;

    3. 熟練掌握 PyTorch/TensorFlow 等深度學(xué)習(xí)框架中的至少一種;

    4. 具備優(yōu)秀的編程能力和經(jīng)驗(yàn),熟悉 Python、C/C++、Java 等編程語(yǔ)言,具有扎實(shí)的數(shù)據(jù)結(jié)構(gòu)和算法功底;

    5.具備優(yōu)秀的研究和創(chuàng)新能力,在CVPR/ ICCV/ ECCV 與 ICML/ ACL/ EMNLP/ KDD/ AAAI 等計(jì)算機(jī)視覺(jué)&自然語(yǔ)言處理&機(jī)器學(xué)習(xí)領(lǐng)域國(guó)際頂會(huì)或頂刊上發(fā)表過(guò)論文或workshop獲獎(jiǎng)?wù)邇?yōu)先; 在國(guó)際競(jìng)賽(如: ACM ICPC, Kaggle , KDD Cup 等)中獲得過(guò)優(yōu)異成績(jī)者優(yōu)先;

    歡迎感興趣的朋友發(fā)送簡(jiǎn)歷至:REDtech@xiaohongshu.com;

    并抄送至:laige@xiaohongshu.com

    NLP算法工程師-智能創(chuàng)作

    崗位職責(zé):

    基于高質(zhì)量的小紅書(shū)內(nèi)容生態(tài),研發(fā)實(shí)用領(lǐng)先的 NLP 智能創(chuàng)作技術(shù),技術(shù)棧包括關(guān)鍵詞提取、情感分析、上下文理解、命名實(shí)體識(shí)別、詞性標(biāo)注、句法分析、機(jī)器翻譯、文本摘要、問(wèn)答系統(tǒng)等,廣泛支持智能內(nèi)容創(chuàng)作需求,創(chuàng)造小紅書(shū)獨(dú)有的產(chǎn)品用戶價(jià)值。

    任職要求:

    1. 熟悉語(yǔ)言知識(shí)表示、多模態(tài)生成模型及 NLP 智能創(chuàng)作,在以下一個(gè)或多個(gè)領(lǐng)域有深入的研究及落地經(jīng)驗(yàn),包括但不限于:NLP 生成、文案創(chuàng)作、多輪對(duì)話、模型壓縮等

    2. 具有優(yōu)秀的編程基礎(chǔ)及動(dòng)手能力、良好的工作習(xí)慣,豐富的業(yè)務(wù)落地實(shí)戰(zhàn)經(jīng)驗(yàn),優(yōu)秀的快速學(xué)習(xí)能力

    3. 敢于應(yīng)對(duì)實(shí)際挑戰(zhàn),有堅(jiān)韌的品質(zhì)、優(yōu)秀的自驅(qū)能力,善于主動(dòng)溝通表達(dá)和團(tuán)隊(duì)協(xié)作

    4. 發(fā)表 ML/NLP 等頂會(huì)/期刊論文、取得權(quán)威競(jìng)賽 Top 名次、ACM 編程國(guó)際競(jìng)賽 Top 成績(jī)者優(yōu)先

    歡迎感興趣的朋友發(fā)送簡(jiǎn)歷至:REDtech@xiaohongshu.com;

    并抄送至:tangshen@xiaohongshu.com

    關(guān)鍵詞:

    相關(guān)閱讀
    分享到:
    版權(quán)和免責(zé)申明

    凡注有"環(huán)球傳媒網(wǎng)"或電頭為"環(huán)球傳媒網(wǎng)"的稿件,均為環(huán)球傳媒網(wǎng)獨(dú)家版權(quán)所有,未經(jīng)許可不得轉(zhuǎn)載或鏡像;授權(quán)轉(zhuǎn)載必須注明來(lái)源為"環(huán)球傳媒網(wǎng)",并保留"環(huán)球傳媒網(wǎng)"的電頭。

    Copyright ? 1999-2017 cqtimes.cn All Rights Reserved 環(huán)球傳媒網(wǎng)-重新發(fā)現(xiàn)生活版權(quán)所有 聯(lián)系郵箱:8553 591@qq.com
    久久激情五月网站,一本色道综合亚洲精品精品,午夜电影久久久久久,中文无码AV片在线 成a在线观看视频播放 婷婷色中文在线观看
  • <rt id="2wkqu"><small id="2wkqu"></small></rt>