領(lǐng)學(xué)術(shù)科研之先,創(chuàng)食品科技之新
—— 中國食品雜志社
期刊集群
基于增強(qiáng)視覺Transformer的哈希食品圖像檢索
來源:導(dǎo)入 閱讀量: 178 發(fā)表時(shí)間: 2024-06-24
作者: 曹品丹,閔巍慶,宋佳駿,盛國瑞,楊延村,王麗麗,蔣樹強(qiáng)
關(guān)鍵詞: 食品圖像檢索;食品計(jì)算;哈希檢索;Vision Transformer網(wǎng)絡(luò);深度哈希學(xué)習(xí)
摘要:

作為食品計(jì)算的一個(gè)主要任務(wù),食品圖像檢索近年來受到了廣泛的關(guān)注。然而,食品圖像檢索面臨著兩個(gè)主要的挑戰(zhàn)。首先,食品圖像具有細(xì)粒度的特點(diǎn),這意味著不同食品類別之間的視覺差異可能很小,這些差異只能在圖像的局部區(qū)域中觀察到。其次,食品圖像包含豐富的語義信息,如食材、烹飪方式等,這些信息的提取和利用對(duì)于提高檢索性能至關(guān)重要。為解決這些問題,本實(shí)驗(yàn)基于預(yù)訓(xùn)練的視覺Transformer(Vision Transformer,ViT)模型提出了一種增強(qiáng)ViT的哈希網(wǎng)絡(luò)(enhanced ViT hash network,EVHNet)。針對(duì)食品圖像的細(xì)粒度特點(diǎn),EVHNet中設(shè)計(jì)了一個(gè)基于卷積結(jié)構(gòu)的局部特征增強(qiáng)模塊,使網(wǎng)絡(luò)能夠?qū)W習(xí)到更具有代表性的特征。為更好地利用食品圖像的語義信息,EVHNet中還設(shè)計(jì)了一個(gè)聚合語義特征模塊,根據(jù)類令牌特征來聚合食品圖像中的語義信息。本實(shí)驗(yàn)提出的EVHNet模型在貪婪哈希、中心相似量化和深度極化網(wǎng)絡(luò)3 種流行的哈希圖像檢索框架下進(jìn)行評(píng)估,并與AlexNet,ResNet50、ViT-B_32和ViT-B_16 4 種主流網(wǎng)絡(luò)模型進(jìn)行比較,在Food-101、Vireo Food-172、UEC Food-256 3 個(gè)食品數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,EVHNet模型在檢索精度上的綜合性能優(yōu)于其他模型。

電話: 010-87293157 地址: 北京市豐臺(tái)區(qū)洋橋70號(hào)

版權(quán)所有 @ 2023 中國食品雜志社 京公網(wǎng)安備11010602060050號(hào) 京ICP備14033398號(hào)-2

全州县| 广德县| 汉中市| 凌云县| 岚皋县| 新竹县| 藁城市| 克什克腾旗| 吉安县| 长治市| 鄯善县| 新密市| 百色市| 潮州市| 阳西县| 秀山| 陈巴尔虎旗| 绥阳县| 额济纳旗| 土默特右旗| 虎林市| 上栗县| 辽阳市| 龙胜| 筠连县| 彭泽县| 广河县| 祁阳县| 定西市| 大方县| 清流县| 呼图壁县| 水富县| 罗山县| 宁晋县| 新野县| 玉树县| 扎鲁特旗| 海丰县| 历史| 北碚区|