发布于 29 天前
摘要
摘要:随着深度学习技术的不断发展,计算机视觉领域取得了显著的成果。其中,语言引导视觉(CLIP/BLIP)联合建模技术作为一种新兴的研究方向,将自然语言处理与计算机视觉相结合,实现了图像与文本的跨模态交互。本文将围