領(lǐng)學(xué)術(shù)科研之先,創(chuàng)食品科技之新
—— 中國食品雜志社
期刊集群
基于增強(qiáng)視覺Transformer的哈希食品圖像檢索
來源:導(dǎo)入 閱讀量: 178 發(fā)表時(shí)間: 2024-06-24
作者: 曹品丹,閔巍慶,宋佳駿,盛國瑞,楊延村,王麗麗,蔣樹強(qiáng)
關(guān)鍵詞: 食品圖像檢索;食品計(jì)算;哈希檢索;Vision Transformer網(wǎng)絡(luò);深度哈希學(xué)習(xí)
摘要:

作為食品計(jì)算的一個(gè)主要任務(wù),食品圖像檢索近年來受到了廣泛的關(guān)注。然而,食品圖像檢索面臨著兩個(gè)主要的挑戰(zhàn)。首先,食品圖像具有細(xì)粒度的特點(diǎn),這意味著不同食品類別之間的視覺差異可能很小,這些差異只能在圖像的局部區(qū)域中觀察到。其次,食品圖像包含豐富的語義信息,如食材、烹飪方式等,這些信息的提取和利用對(duì)于提高檢索性能至關(guān)重要。為解決這些問題,本實(shí)驗(yàn)基于預(yù)訓(xùn)練的視覺Transformer(Vision Transformer,ViT)模型提出了一種增強(qiáng)ViT的哈希網(wǎng)絡(luò)(enhanced ViT hash network,EVHNet)。針對(duì)食品圖像的細(xì)粒度特點(diǎn),EVHNet中設(shè)計(jì)了一個(gè)基于卷積結(jié)構(gòu)的局部特征增強(qiáng)模塊,使網(wǎng)絡(luò)能夠?qū)W習(xí)到更具有代表性的特征。為更好地利用食品圖像的語義信息,EVHNet中還設(shè)計(jì)了一個(gè)聚合語義特征模塊,根據(jù)類令牌特征來聚合食品圖像中的語義信息。本實(shí)驗(yàn)提出的EVHNet模型在貪婪哈希、中心相似量化和深度極化網(wǎng)絡(luò)3 種流行的哈希圖像檢索框架下進(jìn)行評(píng)估,并與AlexNet,ResNet50、ViT-B_32和ViT-B_16 4 種主流網(wǎng)絡(luò)模型進(jìn)行比較,在Food-101、Vireo Food-172、UEC Food-256 3 個(gè)食品數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,EVHNet模型在檢索精度上的綜合性能優(yōu)于其他模型。

電話: 010-87293157 地址: 北京市豐臺(tái)區(qū)洋橋70號(hào)

版權(quán)所有 @ 2023 中國食品雜志社 京公網(wǎng)安備11010602060050號(hào) 京ICP備14033398號(hào)-2

兴业县| 孝义市| 宁化县| 龙山县| 新竹市| 张家口市| 陵川县| 溧水县| 平顺县| 泽库县| 盐边县| 翁源县| 宿松县| 武城县| 西城区| 吉首市| 阿尔山市| 盈江县| 九龙坡区| 太谷县| 全州县| 沙湾县| 阜新市| 永寿县| 基隆市| 香河县| 通榆县| 西华县| 丘北县| 尉犁县| 泾源县| 张家口市| 康保县| 张家港市| 东兴市| 邻水| 萨迦县| 印江| 清水河县| 临沭县| 额济纳旗|