1. 背景与定位
Kosong 是由北京月之暗面科技有限公司(Moonshot AI)在 2025 年推出的全新 Agent 框架,旨在为研发者提供“一站式”多模态智能体构建能力。它把 注释基础设施、跨平台任务数据集、可扩展工作流 与 统一的 Python SDK 融合在一起,使得从原型验证到企业级部署的整个过程更加高效、可复现。
2. 核心架构与关键组件
| 组件 | 功能 | 说明 |
|---|---|---|
| 注释基础设施 | 自动捕获人类在电脑上使用各种软件的演示并生成结构化标注 | 支持 Windows、macOS、Linux 三大操作系统,覆盖 200+ 常用应用 |
| AgentNet 数据集 | 规模化的跨平台计算机使用任务数据集,包含 200+ 应用场景的 “状态‑动作” 对 | 为训练具备长思维链推理的 Agent 提供真实交互轨迹 |
| 工作流引擎 | 将演示转换为 反思性长链推理(state‑action)序列,支持并行与异步执行 | 通过 “状态‑动作” 对实现可解释的决策过程 |
| 模型微调层(OpenCUA 系列) | 基于 Kimi‑VL‑A3B、Qwen2‑VL‑7B、Qwen2.5‑VL‑32B 等模型进行 SFT,产出 OpenCUA‑A3B、OpenCUA‑Qwen2‑7B 等变体 | 在公开基准上 超越 GPT‑4o,尤其在多模态 Agent 任务上表现突出 |
| Kosong Python SDK | 对外统一的编程接口,封装消息结构、工具调用、聊天提供商适配等 | 通过 ChatProvider 抽象层实现 多模型、跨供应商 的即插即用 |
3. 主要特性
- 统一消息结构
Messages类统一管理文本、图像、音频等多模态数据,支持流式传输,降低跨模型交互的实现难度。
- 异步工具编排
- 内置 ToolExecutor,支持并行调用外部工具(搜索、数据库、代码执行等),并自动处理返回结果的上下文关联。
- 多模型/多提供商切换
- 内置演示代理(DemoAgent)
- 提供示例智能体实现,演示如何使用 状态‑动作 对进行长链推理,帮助开发者快速上手。
- 可扩展插件体系
- 支持自定义工具插件(如自研检索、业务系统 API),通过统一的
Tool接口接入,保持框架的 高可维护性。
- 支持自定义工具插件(如自研检索、业务系统 API),通过统一的
- 开源、许可证友好
- 项目托管在 GitHub(https://github.com/MoonshotAI/kosong ),采用 Apache 2.0 许可证,鼓励社区贡献与二次开发。
4. 使用方式(简要示例)
# 安装
# pip install kosong
from kosong import Messages, ChatProvider, DemoAgent
# 1️⃣ 选择聊天提供商(这里以 Kimi 为例)
provider = ChatProvider.from_env() # 自动读取环境变量中的 API Key
# 2️⃣ 构造消息
msg = Messages()
msg.add_text("请帮我分析这张图片中的主要物体并给出简要描述。")
msg.add_image("https://example.com/sample.jpg")
# 3️⃣ 调用演示代理
agent = DemoAgent(provider)
response = agent.run(msg)
print(response.text) # 输出:图片中包含一只正在奔跑的金毛犬,背景是绿草地…
上述代码展示了 统一消息、多模态输入 与 可插拔提供商 的完整流程,几行代码即可完成一次跨模型的推理任务。
5. 开源生态与社区
- 仓库地址:
https://github.com/MoonshotAI/kosong - 贡献指南:提供
CONTRIBUTING.md,鼓励提交 Issue、Pull Request;同时维护 示例库(examples/)帮助新手快速上手。 - 文档:完整的 API 文档、快速入门教程以及常见问题解答均在仓库 Wiki 中维护。
6. 性能与评测
- 在 AgentNet 基准上,Kosong 结合 OpenCUA‑Qwen2‑7B 变体的 SFT 版本在多模态任务上 超过 GPT‑4o,尤其在长思维链推理的准确率与一致性上提升显著。
- 通过 MoE(Mixture‑of‑Experts) 架构,推理时仅激活约 32 B 参数(相较于全模型 1 T 参数),实现 高效推理 与 低成本部署。
7. 典型应用场景
| 场景 | 价值 |
|---|---|
| 原型研发 | 快速搭建多模态智能体,验证业务概念,无需自行实现复杂的工具编排。 |
| 企业级客服 | 统一接入多家大模型供应商,降低供应商锁定风险;支持图文、音频交互。 |
| 跨平台自动化 | 利用注释基础设施捕获真实操作,训练可在桌面、服务器上执行的自动化 Agent。 |
| 教育与科研 | 通过公开的 AgentNet 数据集与 DemoAgent,帮助学术团队复现与扩展 Agent 研究。 |
8. 发展路线(已公开)
- 2025 Q4:发布 Kosong 2.0,加入 自监督任务微调 与 更细粒度的工具插件。
- 2026 上半年:计划推出 可视化调试面板(Web UI),帮助开发者直观查看状态‑动作链路。
9. 小结
Kosong 将 底层数据采集、任务数据集、模型微调 与 易用的 Python SDK 有机结合,提供了一个 从数据到部署全链路 的开源解决方案。它的 统一消息结构、异步工具编排以及多模型适配 能显著降低构建复杂多模态 Agent 的门槛;同时,基于 AgentNet 与 OpenCUA 的强大模型能力,使其在公开基准上已经 超越 GPT‑4o,具备了在实际业务中直接落地的竞争力。对想要快速实现智能体原型或在企业内部部署可扩展 AI 代理的研发者而言,Kosong 是当前最值得关注的开源框架之一。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!