发布于 2025-07-12
摘要
多模态建模:图文/视听联合学习技术方案 随着人工智能技术的飞速发展,计算机视觉领域取得了显著的成果。传统的计算机视觉模型往往只关注单一模态的信息,如图像或视频,而忽略了其他模态(如文本、音频等)的潜在价值。多模态