文章
最新内容更新在这里,欢迎随手翻阅。
AI工作流的30分钟边界
AI工作流的30分钟边界 今天折腾了一整天AI工作流,BMAD、ralph-loop、planning-files、helloAgent轮番上阵,结果呢?还是卡住了。 正当我怀疑人生的时候,刷到了Metr.org的一篇文章,看完直接给我整醒了。
Deep Research Agent 实战(二):基础研究型Agent构建
嘿,朋友们,欢迎回到我们的 "Deep Research Agent" 实战系列! 在上一篇文章中,我们探讨了 Research Agent 的核心理念。今天,我们要动真格的了——卷起袖子,一步步构建一个属于我们自己的基础研究型 Agent! 迭代一款产品总是令人兴奋的,不是吗?这次,我们不仅会深入两大核心工作流的内部构造,还会将最终的成果封装成一个包含前后端的服务。
Deep Research Agent 实战(一):架构设计与评估体系构建指南
嘿,大家好!最近是不是被各种强大的 Agent 应用刷屏了?你有没有想过,一个能进行『深度研究』的 Agent 到底是怎么构建的? 今天,我们就来一起拆解 LangGraph 官方推出的高质量课程《Deep Research from Scratch》,不卷代码,搞懂一个顶级 Research Agent 的架构设计与评估体系! 这个课程质量非常高,它只依赖了 Tavily 这一个外部工具(Tavily 是一个搜索工具),就实现了一个强大的深度研究 Agent。更棒的是,它教会我们的不仅仅是代码,更是其背后的提示词设计原则和Agent 评估体系,含金量超高。
GitHub官方出品!spec-kit:项目开发的瑞士军刀
AI编码正在飞速发展,每周都有能让我感到吃惊的AI编码工具出现。 还记得上次给大家分享了AI编程的工作流吗?最近我又找到了一个更好的工具,可以更好的生成初创项目的代码实现,那就是9月份 github 开源的 spec-kit。今天,我们就来一起盘一盘它到底有多神。 什么是规则驱动开发(Spec-Driven Development)?
AI当小弟,3天交付一个MVP!可控AI编程实战复盘
朋友们!想不想试试给AI当老板,让它当你的“产品总监”与“首席工程师”,在短短3天内从零交付一个MVP产品? 今天,我们就来深入聊聊一个新的话题:可控AI软件工程。 近一年,AI编程工具层出不穷,从 Cursor、Qoder、Trea 到基于命令行的 Claude Code,简直让人眼花缭乱。作为一名老程序员,AI日渐成熟引发的生产力暴涨让我兴奋,担忧自我成长追不上AI发展的步伐又让我焦虑。
Human-in-the-loop 如何拯救智能体的骚操作?
今天继续讨论 LangGraph 的实践,这次我们来聊聊 human-in-the-loop。毕竟智能体再智能,也难免会出 “骚操作”—— 比如瞎编数据、做超出权限的决策,而 human-in-the-loop 就是给智能体装个 “刹车”,关键时刻让人类接手决策。 这篇文章里,我们会从基础概念聊起,搞清楚它和多轮对话到底有啥区别,然后通过 LangGraph 实现这个功能,看看它在咱们 TinyCodeBase 项目里的实战用法。 💡 什么是 human-in-the-loop?
之前有多嫌弃大模型框架,现在用 LangGraph 就有多香
聊到大模型框架,你是不是也和我曾经一样,觉得 LangChain 这类东西有点‘多此一举’?总感觉自己写几行 Python 代码就能搞定一切。 我之前就是这么想的,直到我遇到了 LangGraph... 妈耶,真香!它解决工具调用问题的丝滑程度,让我这个‘手搓党’都直呼好家伙。今天,我就带大家一起体验下这种快乐,顺便聊聊我踩过的坑。 官方的教程分了6步,今天我们先拿下前三步。可以说,会了前三个,就可以解决 80% 的 Agent 开发问题了。
Gemini CLI 自定义命令的妙用
前言 Gemini CLI 是 Google 推出的一个命令行工具,可以让你通过命令行与 Gemini 模型进行交互。 现在,我的很多编程场景都在使用 Gemini CLI 来完成。用 Gemini CLI 的时候总觉得有点束缚,每个项目只能配一个 gemini.md,想换个场景还得改来改去,太麻烦了!
探寻大语言模型 Agent 测评:解读其底层逻辑
大语言模型的测评为什么难做? 在 AI 圈,大语言模型测评堪称「玄学现场」:某国产模型在 C-Eval 榜单力压 GPT-4 登顶,却在真实金融咨询中频繁输出过时政策;GPT-4 能考过律师资格考试,却在小学数学题的数字微调后正确率暴跌 10%。当模型从「专项选手」进化成「全能 Agent」,传统测评体系正在经历前所未有的颠覆。 在传统测评体系中,我们所进行的任务都是标准化的,比如图片分类、文本抽取、情感判断等。这些任务都有固定的框架和标准输出结果。我们可以通过一些指标来评估模型的性能,比如准确率、召回率、F1 分数等。
从零开始搭建一个属于自己的Agent
今天,我们将系统性地从零构建一个定制化Agent。接续上期对Agent原理的探讨,本节以ReAct范式为基础(相关背景请参阅往期文章),逐步实现一个轻量级大模型Agent的完整工作流。 🛠️ 第一步:构建工具库 ReAct 范式中,Agent 依赖外部工具执行任务。以下以 tools.py 中的实现为例。其中包含了谷歌搜索的工具函数。
深入浅出聊聊大模型的Agent
接下来我准备继续学习TinyAgent项目,并将其集成到之前的项目TinyCodeRAG中,后面我计划集中精力打造一个适用于个人可以简单部署的代码知识库项目,因此将其仓库名修改为了 TinyCodeBase(https://github.com/codemilestones/TinyCodeBase)。 欢迎大家给个 star 持续关注。 在开始进行Agent能力搭建之前,我们先来聊聊什么是Agent。
手把手构建TinyCodeRAG:轻量级代码知识库解决方案
在上一篇文章中,我们拆解了RAG系统的核心组件。今天,我们来点更酷的——亲自构建一个专为代码优化的TinyCodeRAG! 💡 快速科普:RAG(Retrieval-Augmented Generation,检索增强生成)技术通过结合外部知识库和AI生成能力,有效缓解大模型的"幻觉"问题。 你可能会好奇:"已有TinyRAG珠玉在前,为何再造轮子?" 原因有二:
RAG系统的拆解
嘿,现在大家可都在积极投身大模型转型浪潮呢!从公司领导想用它提效,到老师用它搞科研,再到普通人抓机会追财富自由——我也是其中之一,正从传统开发往大模型转型。毕竟,传统软件正式微,大模型开发正崛起! 所以啊,我想把自己学习过程中的思考和经验分享出来,希望能帮到大伙儿。今天第一篇,咱们聊聊RAG系统的拆解。 常见的RAG系统产品长啥样?
四年职场求学路,非全日制硕士终达彼岸!
经过四年忙碌却充实的日子,我终于完成了非全日制硕士学位的学习!这段旅程充满挑战,需要我在工作和课业间不断寻找平衡点。虽然辛苦,但探索知识的热情从未消退,每一步学习和成长都让我觉得收获满满。 研究生的学习足迹 起跑线(2021): 我参加了2021年的研究生入学考试,并在同年9月正式开启了硕士生涯,在导师的指导下学习。