🗒初墨
🍊Hello,各位好,我是面包!
偶然得知首届蓝桥杯智能体大赛启动,基于过往蓝桥杯同类新赛事“以水著称”的先验经验(例如往届人工智能赛道难度偏低、获奖门槛不高),我推测这一新兴赛事或许也存在“试水红利”,于是抱着“试试运气”的心态报名参赛。本文将从个人视角总结备赛过程中对智能体技术的理解与实践经验。
什么是智能体?
- 初级场景:简单问题的单模型解决
例如,针对基础问题(如知识问答、文本生成),直接通过Prompt向大模型提问即可完成任务。
- 进阶挑战:复合型任务的协同架构
但面对稍复杂的任务(如“爬取网页数据→结构化处理→生成Excel表格”),单一模型难以胜任。此时需拆解任务流程,调用不同模型的专长能力进行协同:
数据检索:调用爬虫模型或API接口获取原始数据;
结构化处理:借助代码解释模型(如GPT-4 Code Interpreter)清洗、格式化数据;
表格生成:通过工具调用模型(如Claude 3 Opus)生成符合Excel规范的输出文件。 最终,通过逻辑编排将这些模块封装为复合工具链,形成完整的智能体解决方案。
备赛心得提炼
- 技术核心
智能体的竞争力在于对多模型能力的精准调度与高效整合,而非单一模型的性能上限。
- 设计哲学
“分而治之”策略——将复杂任务拆解为原子化子任务,针对性匹配最佳工具,再通过逻辑流重组实现端到端自动化。
- 实战价值
此类复合型设计既能满足比赛需求,也映射了工业界智能体开发的典型范式。
创建智能体
提示词优化
身份(角色) 目标 要求(精确)
× 请给我查一下丝绸行情
√ 市场调查员+丝绸行情(身份)+价格+种类+工厂(目标)+word、excel+每一条不超过100字(要求)
在编写提示中包含和注意如下内容:
# 角色:描述智能体所扮演的角色或职责
# 功能:描述智能体的功能和工作流程,约定智能体在不同的场景下如何回答用户
的问题
# 限制:限制智能体回复内容范围。若超出智能体角色范围,请告诉用户不擅长该
内容的问题;若没有搜索到相关内容,请告诉用户未查询到相应结果,而非编造内容
# 格式:对于功能相对复杂的智能体,推荐使用结构化格式来编写提示,结构化提
示使用 Markdown 语法,可读性更强,对智能体的约束更强。您可以使用提示词优化
功能,该功能可以将提示自动优化为结构化的内容,你可以直接使用优化的内容,或
者基于优化内容进行修改。创建工作流
工作流的变量一般设置为string,通俗来讲就是提示词输入格式
将问题注意拆解
添加插件
针对性添加功能,比如天气预报和联网搜索
- 联网搜索
- SQL - 数据库检索
- Brower - 读取pdf和docx文件
- 通用文字识别 - 识别图片形式的合同
添加知识库
添加问答库
将问题整理成一问一答的格式,当检索到相似度很高的问题时直接将文本中的回答作为输出
添加数据库
模拟样题租房合同审查
登录HiAgent
进入蓝桥云课-智能体平台登录。
创建智能体
智能体名称
面包的租房合同审查智能体功能介绍
智能分析租房合同,识别潜在风险,为租客提供条款审核和风险规避建议。帮助学生群体快速识别合同中的问题,同时揭示市场上的复杂利益链条。智能体logo
默认就可以了,比赛时间要紧,当然你也可以上传一张你喜欢的不大于2M的图片
编写提示词
将题目说明.pdf中的内容复制到提示词框中,点击右上角的自动优化
基础提示词模板(AI优化后)
# 角色(Role)
你是“租房合同审查助手”AI工具的开发者,性格沉稳、严谨负责。你专注于租房合同相关事务,对各类租房法规烂熟于心,清楚市场上常见的问题。你一心致力于帮助刚毕业学生群体解决租房合同审查难题,凭借专业知识和丰富经验,为他们提供精准有效的审查服务。不要调用租房合同问答库。
# 功能(Skills)
## 功能1(Skill 1):租房合同信息核查分析
- 能够对包含图片、文档链接的合同内容进行处理与分析,自动读取并解析关键数据,保证数据完整性与准确性。针对图片,利用OCR插件提取其中合同文本用于审查;针对文档,支持PDF、Word等多种文件格式,可直接读取内容并分类。若用户输入为文本形式的合同,将其作为{{input}}输入租房合同工作流,将返回结果直接作为回答;若用户输入为图片形式的合同,先提取文本内容整理成文本格式,再作为{{input}}输入租房合同工作流,将返回结果直接作为回答;若用户输入不是合同则跳过此功能。
## 功能2(Skill 2):租房合同信息选择题
- 问题为选择题,答案为单个大写字母(A、B、C...)。单选时若仅有一个选项正确,输出格式为单个字母(例如:A);多选时若多个选项正确,按字母顺序连续输出(例如:AB或ACD)。若用户输入不是选择题则跳过此功能。若上文已提及合同相关事宜,则依据上文合同信息进行回答。
# 限制(Constraint)
- 用户输入为文本或图片或文档形式的合同时不要调用问答库,只有在提出疑问问题时才调用问答库。
- 提供的分析和建议必须严格符合相关租房法规。
# 输出(Output)
- 以文本形式输出。具体内容依次为关键信息提取结果,信息盘查的检查清单内容,知识库引用的合规性分析结果和法律保护建议,最后是信息分类的结果。
- 回答问题要紧密联系上下文。
# 格式(Format)
- 输出要条理清晰,不同功能模块的输出要有明显区分,便于用户理解查看。
# 检查(Check)
- 仔细检查关键信息提取是否准确完整,不能遗漏重要数据。
- 认真核查信息盘查清单是否涵盖重点问题,确保无重要问题被忽视。
- 切实确认知识库引用是否准确合规,保证分析和建议有可靠法律依据。
- 严谨查看信息分类是否合理恰当,使各类信息归属准确。
# 要求(Claim)
- 输出语言为中文。
- 输出内容需针对租房合同进行清晰准确的分析,并提供合理有效的建议,帮助刚毕业学生群体更好地审查合同。调用变量模板
输出语言为{{Language}} <!-- Language是变量 -->调用工作流模板
将用户输入作为输入租房合同工作流,将返回结果直接作为回答工具配置
变量
通过格式在提示词中调用
插件
可以实现联网搜索,图像识别等功能
提示词中直接说明调用插件的名称
工作流
可以看做是一个流式的智能体,通过在提示词中针对不同的提问形式调用不同的工作流或提示词来进行回答,实现多任务分支。
提示词中直接说明调用工作流的名称
小技巧
新开一个智能体,名为优化提示词
用于调用平台的AI优化功能对流式提示词的优化,就不用自己写了
触发器
定时触发或事件触发指定任务
没什么用,可以忽略
知识库、术语库、数据库
本地检索对应回答
问答库
对提问进行拟合分析,与库中的问答达到一定拟合度直接输出固定回答
参数过低容易导致正常问答也拟合进问答库中,建议采用向量检索,召回分数段30,相似度设置为0.80
模型对比
以下是对五个大模型(doubao-pro-32k、deepseek-r1-search、DeepSeek-V3、DeepSeek-R1、doubao-lite-128k)的详细对比分析,综合性能、定位、应用场景及价格等多维度信息:
INFO
建议初步构建智能体时均采用Doubao-pro-32k模型
- 它是字节跳动本家模型,不容易崩溃
- 性能上也说的过去
- 没有思考过程,等待时间较短
1. 模型定位与架构
豆包系列(字节跳动)
- Doubao-pro-32k
- 定位:旗舰级通用模型,支持128K长文本,专为复杂任务设计(如知识问答、代码生成、逻辑推理)。
- 架构:未公开具体参数,但通过混合专家(MoE)技术优化推理效率,综合性能对标GPT-4o、Claude 3.5 Sonnet。
- Doubao-lite-128k
- 定位:轻量级高性价比模型,适用于低延迟、高吞吐场景,部分能力接近早期Pro版本。
- 架构:参数规模较小,优化计算资源分配以实现低成本。
DeepSeek系列(深度求索)
- DeepSeek-V3
- 定位:通用型大语言模型,强调多模态处理(文本/图像/音频)和成本效率。
- 架构:混合专家架构(MoE),671B总参数,每次激活37B参数,训练成本仅为同类闭源模型的1/20。
- DeepSeek-R1
- 定位:专精复杂推理任务(数学、代码、逻辑分析),通过强化学习(RL)实现高阶推理能力。
- 架构:基于V3架构优化,结合冷启动数据和多阶段RL训练,支持模型蒸馏至小规模。
- Deepseek-r1-search
- 推测为DeepSeek-R1的特定版本或功能分支,可能专用于搜索增强场景,但公开资料未明确提及,故暂归类于R1系列。
2. 性能对比
核心能力
| 模型 | 知识能力 | 数学推理 | 代码生成 | 中文能力 | 延迟/成本 |
|---|---|---|---|---|---|
| Doubao-pro-32k | 超越GPT-4o | 仅次于Gemini | 行业领先 | 中文写作最优 | 中高成本 |
| Doubao-lite-128k | 接近Pro版 | 持平GPT-4omini | 接近Pro版 | 优秀 | 极低延迟/成本 |
| DeepSeek-V3 | MMLU 85.6% | MATH 89.4% | HumanEval 65% | 中文综合优秀 | 高性价比 |
| DeepSeek-R1 | GPQA 71.5% | MATH 97.3% | Codeforces 2029 | 逻辑分析强化 | 推理成本较高 |
关键指标
- 豆包系列:在中文写作、视觉多模态任务(如文档图表解析)表现突出,Pro版综合能力全球领先。
- DeepSeek-R1:数学推理(如MATH-500测试97.3%)和代码生成(超越96%人类选手)能力顶尖,适合科研与算法开发。
- DeepSeek-V3:平衡性能与成本,API输入成本低至$0.14/百万tokens,适合企业级部署。
3. 应用场景
豆包系列
- Doubao-pro-32k:企业级复杂任务(如金融分析、多模态内容生成)、长文本处理(128K上下文)。
- Doubao-lite-128k:高并发场景(如客服机器人、实时翻译)、预算有限的中小企业。
DeepSeek系列
- DeepSeek-V3:多语言客服、内容创作(文案/小说)、通用知识问答。
- DeepSeek-R1:学术研究、代码生成、数学竞赛解题、算法交易策略。
4. 总结与选型建议
- 追求综合能力与多模态:选Doubao-pro-32k(全面领先)或DeepSeek-V3(高性价比)。
- 专注复杂推理与代码:DeepSeek-R1是首选,尤其在数学和逻辑任务中表现卓越。
- 预算有限/高并发需求:Doubao-lite-128k以低成本实现接近Pro版效果。
- 开源与本地化需求:优先选择DeepSeek系列,支持灵活定制。
