Warning: Array to string conversion in /www/wwwroot/www.aiug.cn/wp-content/themes/wsp/inc/wp-optimization.php on line 82

Warning: Array to string conversion in /www/wwwroot/www.aiug.cn/wp-content/themes/wsp/inc/wp-optimization.php on line 82
谷歌发布 AI 文件检测工具 Magika 1.0 | AIUG

谷歌发布 AI 文件检测工具 Magika 1.0

AI资讯 2个月前硕雀

29 0 0

Google Magika 1.0 概览

项目	关键内容
发布时间	2025 年 11 月 7 日正式发布 1.0 稳定版
定位	基于 AI 的文件类型检测工具，旨在以毫秒级速度、极高准确率识别二进制和文本文件，帮助 Gmail、Google Drive、Safe Browsing 等服务提升安全与内容治理能力
开源状态	完全开源，代码托管在 GitHub（<https://github.com/google/magika >），社区每月下载量已超过 100 万次
核心技术	• 使用定制的、经过高度优化的 Keras 深度学习模型（模型体积约 1 MB） • 运行时基于 ONNX Runtime 与 Rust 重写的核心引擎，结合 Tokio 异步框架，实现高并发、低延迟 • 采用 SedPack 数据库处理大规模文件特征，利用生成式 AI 增强稀缺文件类型的训练数据
语言实现	核心引擎使用 Rust 重写，提升运行效率与内存安全；提供 Python、TypeScript 等多语言绑定，支持跨平台安装
性能指标	• 单核 CPU 下每个文件检测耗时仅数毫秒；多核并行可达每秒数千文件 • 与传统签名/启发式检测相比，整体检测效率提升约 30% • 在 100 多种文件类型的评估中，准确率/召回率均超过 99%（恶意脚本类如 VBA、PowerShell 的检测准确率约 95%）
支持的文件类型	超过 200 种文件格式，覆盖数据科学、编程语言、DevOps、数据库等多个类别，能够区分相似格式（如不同压缩包、脚本语言）
使用方式	• 命令行工具（`magika`） • Python API（`magika.detect()`） • JavaScript/TypeScript 包（`@google/magika`） • 批量处理模式可进一步提升推理吞吐量
典型应用场景	- 邮件附件安全扫描（Gmail） - 云存储文件安全审计（Google Drive） - 网络安全网关的文件路由与策略匹配（Safe Browsing） - 开源项目或企业内部的文件分类、内容治理
未来规划	持续优化模型体积与推理速度，扩展至更多新兴文件格式；鼓励社区贡献新类型的训练样本与插件；计划在后续版本中加入更细粒度的恶意行为检测能力

核心优势总结

极快的检测速度：Rust 重写的核心引擎配合 ONNX Runtime，使得即使在普通 CPU 上也能在毫秒级完成文件类型判定。
高准确率：基于深度学习的模型在 100 + 文件类型上实现 99% 以上的精确度，尤其在难以通过传统特征识别的脚本类恶意文件上也能保持约 95% 的检测率。
轻量化与跨平台：模型仅约 1 MB，内存占用极低；提供多语言绑定，方便在不同技术栈中直接使用。
开源生态：项目代码公开，社区可自行扩展文件类型、改进模型或集成到自有安全系统中。

结论
Magika 1.0 将 AI 与系统级实现相结合，突破了传统文件检测的速度与准确率瓶颈，已经在 Google 的核心产品中得到大规模实战验证，并通过开源方式向业界提供了一套高效、可靠的文件类型检测方案。未来随着模型和数据库的持续迭代，Magika 有望在更广泛的安全与内容治理场景中发挥关键作用。

Google Magika 1.0

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！