字节跳动发布开源大语言模型 Seed-OSS

AI资讯 7个月前硕雀

71 0 0

字节跳动发布的开源大语言模型 Seed-OSS 是其在人工智能领域的重要开源成果之一，旨在推动大模型技术的发展与应用。以下是对该模型的详细介绍：

字节跳动旗下的 Seed 团队 在 2025 年 8 月 21 日发布了最新的开源大型语言模型 Seed-OSS-36B，该模型在 Hugging Face 平台上开放，支持开发者和研究社区使用。该模型是字节跳动在大语言模型领域的又一重要开源成果，标志着其在开源社区中的持续投入。

Seed-OSS 系列模型具有以下技术特点：

参数规模：模型参数量达到 360 亿，支持 64 层网络结构，支持 15.5 万词表，最大上下文长度可达 512K tokens，是当前主流开源模型（如 DeepSeek V3.1）的 4 倍。
架构设计：融合了多种先进设计，包括 因果语言建模、分组查询注意力（Grouped Query Attention）、SwiGLU 激活函数、RMSNorm 和 RoPE 位置编码 等技术。
训练数据：模型基于 12 万亿 tokens 的训练数据进行预训练，支持多种基准测试中的优异表现。
开源协议：采用 Apache-2.0 开源协议，允许学术研究和商业部署。

Seed-OSS 系列包含多个版本，包括：

Seed-OSS-36B-Base：基础模型，支持无合成数据和含合成数据的版本。
Seed-OSS-36B-Instruct：指令微调版本，在数学、代码和长上下文任务中表现优异，达到 SOTA（State-of-the-Art）水平。
推理能力：支持灵活的推理预算控制、增强推理能力、智能体任务和长上下文处理。

字节跳动在大语言模型领域持续投入，不仅发布了 Seed-OSS，还推出了其他开源模型，如 Seed-Coder（代码生成模型）、Seed Diffusion（多模态模型）等，推动开源成为其技术生态的重要组成部分。

Seed-OSS 是字节跳动在开源大语言模型领域的又一重要成果，凭借其强大的参数规模、先进的架构设计和广泛的应用场景，为开发者和研究社区提供了强大的工具和资源。该模型的发布进一步推动了大语言模型技术的发展和应用。

Seed-OSS

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！