伴随着人工智能时代的来临,越来越多的业务场景需要我们利用 AI 技术去支持,而机器学习则是目前人工智能方向最重要的子领域之一。各种机器学习模型构建的过程可以抽象概括为:收集数据和数据预处理、特征工程、模型调优和效果评估以及模型部署,整个过程如图 1 所示。在企业级应用场景中,通常在数据预处理和特征工程中会涉及海量数据的收集处理。因此,在大规模模型的处理和运算过程中,如何高效利用海量数据、批量生成机器学习模型就是一个关键问题。
在许多软件工程学科中,生产用例是相当标准化的。以 Web 开发为例:要在 Web 应用中实现身份验证,你无需发明数据库,编写自己的哈希函数,或者设计一个新的身份验证策略。你可以使用某个定义好的方法,并利用标准工具就能在 Web 应用中实现身份验证。然而,在机器学习中,这种标准化并不存在。为了构建从模型训练到部署的管道,团队不得不构建自己的解决方案,主要的问题是从头开始开始构建解决方案。