发布于 5 天前
摘要
摘要:随着深度学习在计算机视觉领域的广泛应用,卷积神经网络(CNN)已经成为主流的图像识别模型。传统的CNN在处理长距离依赖关系和全局特征方面存在局限性。近年来,Vision Transformer(ViT)作为一