互联网上的信息量每时每刻都在增加,从中检索想要的数据就像大海捞针一样。基于内容的图像检索系统能够根据用户输入的内容,从海量的数据中检索用户所需的图像。这些系统在网络购物、智慧医疗等领域都有重要应用。
一般来说,图像检索系统有两种工作方式——基于文本和基于图像。基于文本,就是为系统数据库中的图像都添加标签或注释,用户输入文字描述,系统通过匹配用户输入的文字和图像标签,给出搜索结果;基于图像的检索就是“XX识图”:用户输入图片,系统自动识别图片内容,并检索出内容相关联的其他图片。
然而在我们人类的思考过程中,图像画面和文字描述经常同时在脑海中浮现。比如我看到朋友的笔记本电脑,非常喜欢,想拥有,但是我希望“如果它是银色的”就更好了。这样用户提交给检索系统的信息,就同时包含了图像(一张笔记本电脑的照片)和一些文字描述(银色的)。能综合处理这样两种输入内容的检索系统,就是“双模态”图像检索系统。
双模态图像检索系统示意图 | 参考文献 [2]
近日,韩国光州科学技术院的研究人员开发了DenseBert4Ret,一种使用深度学习技术的双模态图像检索算法。这项研究由Moongu Jeon教授指导,由博士生Zafran Khan于 2022年9月14日发布于期刊《信息科学》(Information Science)中。
文中提出的模型同时接收图像和文字作为输入。为了从输入图像中提取特征,该团队使用了 DenseNet-121深度神经网络模型,使用的密集连接架构减少了层间信息损耗,允许输入层的信息直接流到输出层,在训练期间需要调整参数量非常少。另一方面,利用双向编码器表示法(bidirectional encoder representation from transformer,BERT)架构从文字输入中提取语义和上下文特征。随后两种输入信息的特征相结合,联合用于图像搜索。为了更好地训练联合特征,研究团队还使用了三重损失函数,减少了训练时间和计算要求,形成了拟议的模型DenseBert4Ret。
该团队使用Fashion200k、MIT-states和FashionIQ这三个真实世界的数据集来训练所提出的DenseBert4Ret算法,并与其他算法的效果进行比较,发现DenseBert4Ret的表现优于其他算法。
“我们的模型可以在任何有在线库存和需要检索图像的地方使用。”Jeon教授总结道。希望很快能看到 DenseBert4Ret 系统在我们日常使用的搜索引擎中的应用!
参考文献
[1] https://www.eurekalert.org/news-releases/970574
[2] http://dx.doi.org/10.1016/j.ins.2022.08.119
编译:牛奶
编辑:靳小明
排版:尹宁流
题图来源:《指环王》
论文信息
发布期刊Information Sciences
发布时间 2022年9月14日
论文标题 DenseBert4Ret: Deep bi-modal for image retrieval
(DOI:http://dx.doi.org/10.1016/j.ins.2022.08.119)