GRPO技术其实不是在DeepSeek-R1中提出,早在DeepSeek去年2月发的一篇论文《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》中,他们就已经提出了GRPO技术,并用在DeepSeekMath模型上。为了更好的讲解这个算法的原理,我们首先得了解一些基本的强化学习概念,有相关基础的朋友可以跳过下一小节。
最近,AI 绘画爆火,简单输入几个关键词,短短几十秒,就能生成一张精美的画作。不少画师的饭碗受到了冲击,辛辛苦苦绘图可能还比不上 AI 一键生成,很多人担心自己会被 AI 取代。再看看 ChatGPT,能写文章、做策划、回答各种问题,甚至还能帮忙写代码。这一系列 AI 技术的崛起,让很多人都陷入了深深的焦虑,自己的工作会不会哪天就被 AI 抢走了?