发布于 2025-07-12
摘要
语音视觉联合建模:AV-Hubert的多模态对齐与建模技术 随着人工智能技术的飞速发展,计算机视觉和语音识别领域取得了显著的成果。单一模态的信息往往无法满足复杂场景下的需求。为了更好地理解和处理多模态信息,语音视