发布于 7 天前
摘要
摘要:随着人工智能技术的飞速发展,大模型如Llama在各个领域的应用越来越广泛。为了充分发挥这些大模型的性能,硬件适配成为关键。本文将围绕Llama模型,从GPU显存优化和CPU推理加速两个方面,分享实战中的代码技