谷歌发布 AI 文件检测工具 Magika 1.0

AI资讯 4小时前 硕雀
2 0

Google Magika 1.0 概览

项目 关键内容
发布时间 2025 年 11 月 7 日正式发布 1.0 稳定版
定位 基于 AI 的文件类型检测工具,旨在以毫秒级速度、极高准确率识别二进制和文本文件,帮助 Gmail、Google Drive、Safe Browsing 等服务提升安全与内容治理能力
开源状态 完全开源,代码托管在 GitHub(<https://github.com/google/magika >),社区每月下载量已超过 100 万次
核心技术 • 使用定制的、经过高度优化的 Keras 深度学习模型(模型体积约 1 MB)
• 运行时基于 ONNX RuntimeRust 重写的核心引擎,结合 Tokio 异步框架,实现高并发、低延迟
• 采用 SedPack 数据库处理大规模文件特征,利用生成式 AI 增强稀缺文件类型的训练数据
语言实现 核心引擎使用 Rust 重写,提升运行效率与内存安全;提供 Python、TypeScript 等多语言绑定,支持跨平台安装
性能指标 • 单核 CPU 下每个文件检测耗时仅数毫秒;多核并行可达每秒数千文件
• 与传统签名/启发式检测相比,整体检测效率提升约 30%
• 在 100 多种文件类型的评估中,准确率/召回率均超过 99%(恶意脚本类如 VBA、PowerShell 的检测准确率约 95%)
支持的文件类型 超过 200 种文件格式,覆盖数据科学、编程语言、DevOps、数据库等多个类别,能够区分相似格式(如不同压缩包、脚本语言)
使用方式 • 命令行工具(magika
• Python APImagika.detect()
JavaScript/TypeScript 包(@google/magika
• 批量处理模式可进一步提升推理吞吐量
典型应用场景 - 邮件附件安全扫描(Gmail)
- 云存储文件安全审计(Google Drive)
- 网络安全网关的文件路由与策略匹配(Safe Browsing)
- 开源项目或企业内部的文件分类、内容治理
未来规划 持续优化模型体积与推理速度,扩展至更多新兴文件格式;鼓励社区贡献新类型的训练样本与插件;计划在后续版本中加入更细粒度的恶意行为检测能力

核心优势总结

  1. 极快的检测速度:Rust 重写的核心引擎配合 ONNX Runtime,使得即使在普通 CPU 上也能在毫秒级完成文件类型判定。
  2. 高准确率:基于深度学习的模型在 100 + 文件类型上实现 99% 以上的精确度,尤其在难以通过传统特征识别的脚本类恶意文件上也能保持约 95% 的检测率。
  3. 量化与跨平台:模型仅约 1 MB,内存占用极低;提供多语言绑定,方便在不同技术栈中直接使用。
  4. 开源生态:项目代码公开,社区可自行扩展文件类型、改进模型或集成到自有安全系统中。

结论
Magika 1.0 将 AI 与系统级实现相结合,突破了传统文件检测的速度与准确率瓶颈,已经在 Google 的核心产品中得到大规模实战验证,并通过开源方式向业界提供了一套高效、可靠的文件类型检测方案。未来随着模型和数据库的持续迭代,Magika 有望在更广泛的安全与内容治理场景中发挥关键作用。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!