大模型技术学习过程中的思考
在 AI 圈,大语言模型测评堪称「玄学现场」:某国产模型在 C-Eval 榜单力压 GPT-4 登顶,却在真实金融咨询中频繁输出过时政策;GPT-4 能考过律师资格考试,却在小学数学题的数字微调后正确率暴跌 10%。当模型从「专项选手」进化成「全能 Agent」,传统测评体系正在经历前所未有的颠覆。
在传统测评体系中,我们所进行的任务都是标准化的,比如图片分类、文本抽取、情感判断等。这些任务都有固定的框架和标准输出结果。我们可以通过一些指标来评估模型的性能,比如准确率、召回率、F1 分数等。
但是,当大语言模型的到来,模型的能力不再是标准化的,而是不断在扩展,从AI写作、图像生成到AI编程,模型可以完成各种各样的任务。同时,这些任务的输出结果好坏也是多层次的,很多时候也是因人而异的。这就导致,传统的测评体系已经无法满足需求。
大语言模型 Agent 作为连接技术与场景的桥梁,通过集成LLM的理解、推理与决策能力,已在客服、医疗、金融等领域实现**自
今天,我们将系统性地从零构建一个定制化Agent。接续上期对Agent原理的探讨,本节以ReAct范式为基础(相关背景请参阅往期文章),逐步实现一个轻量级大模型Agent的完整工作流。
ReAct 范式中,Agent 依赖外部工具执行任务。以下以 tools.py
中的实现为例。其中包含了谷歌搜索的工具函数。
{
'name_for_human': '谷歌搜索',
'name_for_model': 'google_search',
'description_for_model': '谷歌搜索是一个通用搜索引擎,可用于访问互联网、查询百科知识、了解时事新闻等。',
'parameters': [
{
'name': 'search_query',
'description': '搜索关键词或短语',
'required': True,
'schema': {'typ
接下来我准备继续学习TinyAgent项目,并将其集成到之前的项目TinyCodeRAG中,后面我计划集中精力打造一个适用于个人可以简单部署的代码知识库项目,因此将其仓库名修改为了 TinyCodeBase(https://github.com/codemilestones/TinyCodeBase)。 欢迎大家给个 star 持续关注。
在开始进行Agent能力搭建之前,我们先来聊聊什么是Agent。
AI Agent 被定义为在限定的数字环境中执行目标导向任务的自主软件实体。它们通过感知结构化或非结构化的输入、对上下文信息进行推理,并采取行动以实现特定目标。与传统自动化脚本不同,AI Agent展现出反应式智能和有限的适应性,能够根据动态输入调整输出[1]。
“传统的”大模型存在一些局限性,比如:
而 AI Agent 的
在上一篇文章中,我们拆解了RAG系统的核心组件。今天,我们来点更酷的——亲自构建一个专为代码优化的TinyCodeRAG!
💡 快速科普:RAG(Retrieval-Augmented Generation,检索增强生成)技术通过结合外部知识库和AI生成能力,有效缓解大模型的"幻觉"问题。
你可能会好奇:"已有TinyRAG珠玉在前,为何再造轮子?" 原因有二:
首先,造轮子是最扎实的学习路径。
其次,在造轮子的过程中,可以想办法把它造得更好看一点,这是一个创造的过程,也令人心旷神怡。
于是,TinyCodeRAG诞生了!它带来四大核心升级:
✅ 代码智能分块:专门解析代码数据结构,构建精准向量集
✅ 开箱即用:提供测试API key(用完我会定期续费)
✅ 模块化测试:每个组件都有独立测试用例
✅ 对话体验优化:完整支持多轮上下文对话
话不多说,让我们一起动起来!
先快速过一遍项目结构(完整代码已开源):
(h
嘿,现在大家可都在积极投身大模型转型浪潮呢!从公司领导想用它提效,到老师用它搞科研,再到普通人抓机会追财富自由——我也是其中之一,正从传统开发往大模型转型。毕竟,传统软件正式微,大模型开发正崛起!
所以啊,我想把自己学习过程中的思考和经验分享出来,希望能帮到大伙儿。今天第一篇,咱们聊聊RAG系统的拆解。
眼下,典型产品比如Cursor的RAG系统:用户上传文件后,它会自动向量化并存入向量数据库;提问时,Cursor直接从库中检索相关信息返回。
<p align=center>cursor codebase Index界面</p>
另一款腾讯出品的ima也类似:你能把微信公众号文章整理成知识库,提问时iMA自动检索回答。
<p align=center>腾讯ima</p>
![IMA界面](https://i.postimg.cc/jdCmrtzg/2025-06