最近 Hermes Agent 热度似乎已经超过 OpenClaw 了!上线不到两个月,GitHub 星标就已超过 8.5 万。但 Reddit 上有人指出:6个发版有3个无法运行,自我改进功能也不靠谱。到底真相如何?
第一眼看到 Hermes,估计所有人都想到的是那个奢侈品牌爱马仕。不过古希腊的信使之神也叫这个名字——负责在神明与人类之间传递信息。Hermes Agent 在一众 Agent 产品之中,最标新立异的特征在于它能自我改进,或者说自主提升,核心在于原生内置封闭学习循环,可以自我创建和改进技能。
另一个让人称赞的地方是稳定性。Y Combinator 现任 CEO Garry Tan 曾评价:”Hermes 比 OpenClaw 更稳固。”
不过小编浏览 Reddit 后,发现有帖子称 Hermes 的自我改进是让 AI 自己评估任务结果实现的,而这根本不靠谱。另外,Hermes 才发布了 6 个版本,其中 3 个版本甚至无法运行,而 OpenClaw 已经发布了 82 个版本。我们这就来看看 Hermes 的优势到底真不真实。

🧠 HERMES 的自我改进
Hermes Agent 自我改进能力的核心技术原理是“基于经验的程序化记忆 + 周期性反思与自动提炼”的闭环反馈系统。不是通过微调模型权重,而是通过提示级和技能文档级别的自动优化来实现越用越强。
核心机制:封闭学习循环
简单来说,这个循环过程是:执行任务 → 评估结果 → 将技能提取到 Markdown 文件中 → 下次复用 → 技能改进,随着时间的推移技能会获得提升。
- 任务执行:Agent 使用工具、编写代码、浏览网页、生成子代理等完成用户任务(基于 ReAct 风格的观察-推理-行动循环)
- 自我评估检查点:每进行约 15 个工具调用(或复杂任务完成后)暂停反思:”我做了什么?””什么有效?什么失败了?””这个经验是否值得捕获?”
- Skill 创建或更新:Agent 自动生成/修补 Skill Documents,遵循 agentskills.io 开放标准,是人类可读的 Markdown 和脚本包。下次遇到类似任务时,直接通过 FTS5 搜索 Skill 库调用
- 记忆更新:关键事实、用户偏好、纠正信息写入分层记忆(MEMORY.md / USER.md),并通过 LLM 总结压缩
支撑技术组件
| 层级 | 组件 | 说明 |
|---|---|---|
| 1 | Transformer 上下文 | 会话内短期记忆 |
| 2 | SKILL.md 程序性知识 | 持久化技能文档 ✅ |
| 3 | 向量存储索引 | 持久化语义检索 ✅ |
| 4 | Honcho 用户建模 | 持续进化的用户画像 |
| 5 | 会话历史(SQLite + FTS5) | 持久化历史 + LLM 压缩 ✅ |
底层架构以 run_agent.py 中的 AIAgent 为核心,通过同步的 Agent Loop 编排引擎实现完整的运行流程。该架构完全与模型无关,同时辅助采用 DSPy 和 GEPA(Genetic-Pareto Prompt Evolution) 等技术对提示词和技能进行进化优化。
不足和改进方向
从以上梳理可以看出,Hermes 确实围绕着”自我改进”做出了全面的设计和部署。但 Reddit 帖子质疑的内容——学习闭环第2步,AI 自我评估检查并没有达到用户满意的水平,也的确是一个 bug。
有人反映 Hermes 自主创建的 Skill 效果并不理想,还需要自己手动编辑技能去修复它,然而技能会再次被 Hermes 自我改进,手动修改会被覆盖掉,并没有做到”运行时间越长,能力也就越强”。从实际使用来看,Hermes 想做到自身定义的”与你一起成长的 Agent”,还需要加强 AI 对任务结果的自我评估能力。

⚖️ HERMES 真的比 OPENCLAW 稳定吗?
Agent 的稳定性是多方面架构和设计哲学差异共同作用的结果,从 3 个维度来对照分析。
持久记忆力
| 维度 | Hermes | OpenClaw |
|---|---|---|
| 记忆策略 | “智能自治”:自动有界规划、总结旧会话、构建用户模型 | “透明但易乱”:无界 Markdown 文件和会话转录 |
| 长期效果 | 减少幻觉和上下文污染,长期运行平稳 | 易导致上下文爆炸、重复注入无关历史 |
| 检索方式 | 跨会话 FTS5 + 智能检索,越用越准 | 常”记不住”或注入过多,token 浪费 |
复杂架构
Hermes以 Agent 学习循环为核心,Gateway、记忆、Skill、调度等能力都围绕”观察-规划-执行-学习-改进”这个闭环构建。它是一个单一、轻量、专注的 Python 进程,机制更少、层级更清晰,减少了相互干扰和竞态条件。
OpenClaw以 Gateway(消息路由中枢)为核心,拥有大量 Skill 和涉及了 50 多个平台,导致系统更臃肿、配置复杂、更新频繁打破东西。很多用户反馈”每更新一次就要修半天”。
安全域
| 安全维度 | Hermes | OpenClaw |
|---|---|---|
| 安全策略 | 保守策略:Tirith 预执行扫描、Docker 隔离、凭证剥离 | 出现过多次令牌泄露、远程代码执行(RCE)、提示词注入等 CVE |
| 漏洞记录 | 较少出现重大 CVE | 多次 CVE 事件,ClawHub 上发现上千个恶意 Skill |

📊 总结
OpenClaw 虽然经历了远超 Hermes 的迭代次数(82 个版本 vs 6 个版本),拥有更多的实战测试和更大的生态系统广度,但是单从产品设计角度来看,Hermes 的限制记忆膨胀、加强 Agent 自治和选择保守的安全策略,这让它在实际长时运行中感觉更可靠,适合长期重复性任务。
🔥 两条路线,两种哲学
- OpenClaw = 系统派:Gateway First,擅长多渠道、多 Agent 的广度集成和集中管控
- Hermes = 成长派:Agent First,擅长 Agent 的持续提升、Skill 积淀,用得越久能力越强
两者都是为了让 AI 更好地”干活”。AI Agent 的繁荣发展是毋庸置疑的必然趋势,未来我们将见证越来越多新事物的出现,人类和 AI 的能力可能都将会强大到超乎自己的想象。
本文来自转载51CTO技术栈 ,不代表发现AI立场,如若转载,请联系原作者;如有侵权,请联系编辑删除。

