在当今人工智能飞速发展的时代,大语言模型(LLM)已成为自然语言处理领域的核心力量。然而,这些模型在处理实时信息、专业领域知识以及确保回答准确性和可靠性方面仍面临挑战。为了解决这些问题,检索增强生成(Retrieval-Augmented Generation,RAG)技术应运而生。RAG 通过 “检索 - 生成” 模式,将传统信息检索系统与大语言模型相结合,有效解决了大模型知识更新滞后、容易产生幻觉等问题。
在日常调试问题中,相信我们很多人都是用console去排查相关的问题,虽然问题也可以排查出来,但是有时它的效率并不高。这篇文章主要讲解关于断点和一些日常调试技巧的内容,方便你在日后调试问题中,能在不同的前端场景应用不同的调试方式,翻倍提高你解决问题的效率
随着大模型技术的爆发,AI Infra 已成为基础设施领域的核心战场。过去1年多的时间,我们QQ基础架构算法工程团队落地了多个大模型应用,包括语音合成大模型、内容理解多模态大模型、生成式推荐大模型,跑通大模型训练到推理的全链路。踩了很多坑,也积累了不少经验。本文将分享传统后台工程师积累的技术栈和方法论,如何延续并迁移到 AI 系统,并系统性拆解 AI Infra 的硬件、软件、训练和推理挑战。
Kimi K2 是月之暗面 (Moonshot AI) 于 2025 年 7 月推出的最新开源大语言模型,它采用混合专家 (MoE) 架构,拥有**1 万亿 (1T) 总参数**和**32B 激活参数**,是目前开源模型中少有的具备真正 Agent 能力的产品。与传统的 "聊天机器人" 不同,Kimi K2 专为执行型任务设计,能够自主拆解任务、调用工具、编写和调试代码、分析数据,甚至控制多步流程,几乎不需要人类干预
近年来,人工智能领域涌现出许多新概念和新技术,其中AIGC、MCP和Agent成为了业界和学术界的热门话题。本文将深入浅出地介绍这三个概念,帮助读者全面理解它们的内涵、区别与联系,以及在实际应用中的价值。
Spring Boot 4.0.0作为2025年发布的重要版本,带来了一系列核心组件的升级与优化。在HTTP处理方面,HttpHeaders类作为Spring MVC和WebFlux中处理请求/响应头的关键组件,也经历了多项改进。
DeepSeek发布后司内AI应用流量持续上涨,对推理算力的需求呈指数级增长。与此同时,开源社区提供的vllm/sglang等推理引擎存在gpu利用率低、推理速度慢,并发度低等问题,导致同等数量推理卡可服务业务规模较低,导致业务对卡量需求过于庞大。
Cursor 是基于VS Code开发的一款编辑器,支持多种语言的开发编辑。与传统的开发工具相比,它有多种优势:与AI无缝集成,响应速度快,占用内存小。但很多同学在"起步"过程中遇到了一点点问题,导致起步不成功。本文描述一些实用的小技巧,帮助大家快速用Cursor开启AI生涯。
传统的 Web 应用都是由人来操作的,用户需要学习帮助文档,操作成本相对较高,如果能让 AI 来帮我们操作,我们只需要在关键节点进行确认的动作即可,是不是就非常方便?
Tokio可以说是rust中最热门的库,对于异步与并发进行了很好的支持。大多数基于rust的开源框架都使用到了Tokio,因此在介绍这些实现开源框架时经常会被问到:底层的异步和并发是怎么实现的?我只能回答:底层的异步和并发都是由Tokio控制的。这显然不是一个令人满意的回答。因此本文章将对于Tokio的基本方法和底层逻辑进行分析。
SPI机制在Java中应用广泛。例如:JDBC中的数据库连接驱动使用SPI机制,只定义了数据库连接接口的规范,而具体实现由各大数据库厂商实现,不同数据库的实现不同,我们常用的mysql的驱动也实现了其接口规范,通过这种方式,JDBC数据库连接可以适配不同的数据库。
GPU最初的使命是加速图形渲染。而渲染一帧图像,本质上就是对数百万个像素点进行相似的计算,这天然就是一种大规模并行任务。
本文介绍了携程机票前端基于Server-Sent Events(SSE)实现服务端推送的企业级全链路通用技术解决方案。深入探讨 SSE 技术在应用过程中包括方案对比、技术选型、链路层优化以及实际效果等多维度的技术细节,为类似使用场景提供普适性参考和借鉴。该方案设计目标是实现通用性,适用于各种网络架构和业务场景。
使用Spring Boot开发API的时候,读取请求参数是服务端编码中最基本的一项操作,Spring Boot中也提供了多种机制来满足不同的API设计要求。
在业务数据的测试集(总共512条,平均输入1812 tokens,输出978 tokens)上,我们经过理论推算,如果两台H20(16卡)部署fp8满血版Deepseek,吞吐的保守上限是18000+ tokens/s。在2月底,开源vllm/sglang的吞吐1400 tokens/s和2200 tokens/s,存在巨大的优化空间。经过4个月的快速迭代后,vllm/sglang最新版都上升到6100 tokens/s左右。
随着人工智能技术的爆发式增长,企业级应用对AI大模型的分析、推理、生成等能力需求日益迫切。然而,传统模型面临“数据孤岛”困境:大量关键业务数据分散在本地系统、专有数据库或第三方服务中,难以通过简单的提示词直接注入模型,导致模型理解受限、决策质量不足。更严峻的是,对于涉及隐私或合规要求的数据(如企业财务信息、医疗记录等),直接暴露给云端模型存在显著安全风险。如何打破数据壁垒,同时确保敏感信息的安全可控,成为AI落地的核心挑战。
最近,大家都在讨论MCP(Model Context Protocol),它通过标准化协议,实现了工具和AI应用的解耦,推动了AI Agent应用研发范式的转变。尽管MCP非常有价值,但它并非万能。一个"聪明的"AI Agent不仅仅依赖于MCP。MCP主要解决了工具调用、Prompt模板、资源访问等标准化问题,但对于AI Agent的工具选择、任务规划、多Agent协同等核心挑战,仍存在局限,并在实际复杂应用场景中暴露出一些不足。
大语言模型(LLM)很火,讨论的文章铺天盖地,但对于没有机器学习背景的人来说,看多了只是粗浅了解了一堆概念,疑惑只增不减。
Spring Boot 4.0.0 版本引入了基于 JSpecify 注解的 Null 安全改进,这一举措无疑为 Java 开发者带来了福音。它就像是为代码穿上了一层坚固的 “铠甲”,能够在编译阶段就发现潜在的 Null 指针风险,提前预警,避免在运行时出现令人头疼的 NPE,从而大大提升了代码的质量和可靠性 ,让开发者能够更加专注于业务逻辑的实现,而无需在 Null 检查上花费过多的精力。
随着业务的发展,笔者项目对应的Spring Boot工程的依赖越来越多。随着依赖数量的增长,Spring 容器需要加载更多组件、解析复杂依赖并执行自动装配,导致项目启动时间显著增长。在日常开发或测试过程中,一旦因为配置变更或者其他热部署不生效的变更时,项目重启就需要等待很长的时间影响代码的交付。加快Spring项目的启动可以更好的投入项目中,提升开发效率。
关注时代Java