| 项目 | 关键内容 |
|---|---|
| 发布时间 | 2025 年 11 月 7 日正式发布 1.0 稳定版 |
| 定位 | 基于 AI 的文件类型检测工具,旨在以毫秒级速度、极高准确率识别二进制和文本文件,帮助 Gmail、Google Drive、Safe Browsing 等服务提升安全与内容治理能力 |
| 开源状态 | 完全开源,代码托管在 GitHub(<https://github.com/google/magika >),社区每月下载量已超过 100 万次 |
| 核心技术 | • 使用定制的、经过高度优化的 Keras 深度学习模型(模型体积约 1 MB) • 运行时基于 ONNX Runtime 与 Rust 重写的核心引擎,结合 Tokio 异步框架,实现高并发、低延迟 • 采用 SedPack 数据库处理大规模文件特征,利用生成式 AI 增强稀缺文件类型的训练数据 |
| 语言实现 | 核心引擎使用 Rust 重写,提升运行效率与内存安全;提供 Python、TypeScript 等多语言绑定,支持跨平台安装 |
| 性能指标 | • 单核 CPU 下每个文件检测耗时仅数毫秒;多核并行可达每秒数千文件 • 与传统签名/启发式检测相比,整体检测效率提升约 30% • 在 100 多种文件类型的评估中,准确率/召回率均超过 99%(恶意脚本类如 VBA、PowerShell 的检测准确率约 95%) |
| 支持的文件类型 | 超过 200 种文件格式,覆盖数据科学、编程语言、DevOps、数据库等多个类别,能够区分相似格式(如不同压缩包、脚本语言) |
| 使用方式 | • 命令行工具(magika)• Python API( magika.detect())• JavaScript/TypeScript 包( @google/magika)• 批量处理模式可进一步提升推理吞吐量 |
| 典型应用场景 | - 邮件附件安全扫描(Gmail) - 云存储文件安全审计(Google Drive) - 网络安全网关的文件路由与策略匹配(Safe Browsing) - 开源项目或企业内部的文件分类、内容治理 |
| 未来规划 | 持续优化模型体积与推理速度,扩展至更多新兴文件格式;鼓励社区贡献新类型的训练样本与插件;计划在后续版本中加入更细粒度的恶意行为检测能力 |
核心优势总结
- 极快的检测速度:Rust 重写的核心引擎配合 ONNX Runtime,使得即使在普通 CPU 上也能在毫秒级完成文件类型判定。
- 高准确率:基于深度学习的模型在 100 + 文件类型上实现 99% 以上的精确度,尤其在难以通过传统特征识别的脚本类恶意文件上也能保持约 95% 的检测率。
- 轻量化与跨平台:模型仅约 1 MB,内存占用极低;提供多语言绑定,方便在不同技术栈中直接使用。
- 开源生态:项目代码公开,社区可自行扩展文件类型、改进模型或集成到自有安全系统中。
结论
Magika 1.0 将 AI 与系统级实现相结合,突破了传统文件检测的速度与准确率瓶颈,已经在 Google 的核心产品中得到大规模实战验证,并通过开源方式向业界提供了一套高效、可靠的文件类型检测方案。未来随着模型和数据库的持续迭代,Magika 有望在更广泛的安全与内容治理场景中发挥关键作用。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!