基于深度学习的双模态图像检索算法，综合处理图文，精准搜索

互联网上的信息量每时每刻都在增加，从中检索想要的数据就像大海捞针一样。基于内容的图像检索系统能够根据用户输入的内容，从海量的数据中检索用户所需的图像。这些系统在网络购物、智慧医疗等领域都有重要应用。

一般来说，图像检索系统有两种工作方式——基于文本和基于图像。基于文本，就是为系统数据库中的图像都添加标签或注释，用户输入文字描述，系统通过匹配用户输入的文字和图像标签，给出搜索结果；基于图像的检索就是“XX识图”：用户输入图片，系统自动识别图片内容，并检索出内容相关联的其他图片。

然而在我们人类的思考过程中，图像画面和文字描述经常同时在脑海中浮现。比如我看到朋友的笔记本电脑，非常喜欢，想拥有，但是我希望“如果它是银色的”就更好了。这样用户提交给检索系统的信息，就同时包含了图像（一张笔记本电脑的照片）和一些文字描述（银色的）。能综合处理这样两种输入内容的检索系统，就是“双模态”图像检索系统。

双模态图像检索系统示意图 | 参考文献 [2]

近日，韩国光州科学技术院的研究人员开发了DenseBert4Ret，一种使用深度学习技术的双模态图像检索算法。这项研究由Moongu Jeon教授指导，由博士生Zafran Khan于 2022年9月14日发布于期刊《信息科学》（Information Science）中。

文中提出的模型同时接收图像和文字作为输入。为了从输入图像中提取特征，该团队使用了 DenseNet-121深度神经网络模型，使用的密集连接架构减少了层间信息损耗，允许输入层的信息直接流到输出层，在训练期间需要调整参数量非常少。另一方面，利用双向编码器表示法（bidirectional encoder representation from transformer，BERT）架构从文字输入中提取语义和上下文特征。随后两种输入信息的特征相结合，联合用于图像搜索。为了更好地训练联合特征，研究团队还使用了三重损失函数，减少了训练时间和计算要求，形成了拟议的模型DenseBert4Ret。

该团队使用Fashion200k、MIT-states和FashionIQ这三个真实世界的数据集来训练所提出的DenseBert4Ret算法，并与其他算法的效果进行比较，发现DenseBert4Ret的表现优于其他算法。

“我们的模型可以在任何有在线库存和需要检索图像的地方使用。”Jeon教授总结道。希望很快能看到 DenseBert4Ret 系统在我们日常使用的搜索引擎中的应用！

参考文献

[1] https://www.eurekalert.org/news-releases/970574

[2] http://dx.doi.org/10.1016/j.ins.2022.08.119

编译：牛奶

编辑：靳小明

排版：尹宁流

题图来源：《指环王》

论文信息

发布期刊Information Sciences

发布时间 2022年9月14日

论文标题 DenseBert4Ret: Deep bi-modal for image retrieval

(DOI：http://dx.doi.org/10.1016/j.ins.2022.08.119）

标签: 算法

基于深度学习的双模态图像检索算法，综合处理图文，精准搜索

最新资讯

综合型技能培训服务商帮帮电商获天使轮融资

健康｜孩子感染新冠后，持续咳嗽超4周需就医！

孕妇感染新冠胎儿会畸形？8个热门问答一次说清

中国职业教育板块未来展望与思考

山东：达到退休年龄的员工，工伤后怎么赔？

专家建议调整2023年中考体育项目：“阳康”后剧烈运动会对身体造成损害

文档百科