伴随着人工智能时代的来临,越来越多的业务场景需要我们利用 AI 技术去支持,而机器学习则是目前人工智能方向最重要的子领域之一。各种机器学习模型构建的过程可以抽象概括为:收集数据和数据预处理、特征工程、模型调优和效果评估以及模型部署,整个过程如图 1 所示。在企业级应用场景中,通常在数据预处理和特征工程中会涉及海量数据的收集处理。因此,在大规模模型的处理和运算过程中,如何高效利用海量数据、批量生成机器学习模型就是一个关键问题。
随着大模型技术的爆发,AI Infra 已成为基础设施领域的核心战场。过去1年多的时间,我们QQ基础架构算法工程团队落地了多个大模型应用,包括语音合成大模型、内容理解多模态大模型、生成式推荐大模型,跑通大模型训练到推理的全链路。踩了很多坑,也积累了不少经验。本文将分享传统后台工程师积累的技术栈和方法论,如何延续并迁移到 AI 系统,并系统性拆解 AI Infra 的硬件、软件、训练和推理挑战。