Meta重磅开源DINOv3！无需人工标注的AI视觉神器

AI资讯 6个月前硕雀

897 0 0

Meta重磅开源的DINOv3是一款基于自监督学习的视觉大模型，无需人工标注数据即可进行训练，大幅降低了训练时间和资源需求。DINOv3在多个视觉任务中表现出色，包括图像分类、语义分割、深度估计等，其性能在多个基准测试中超越了同类模型。

DINOv3的模型架构采用了定制化的Vision Transformer（ViT）架构，拥有70亿参数，相比前代DINOv2在参数量和训练数据量上均有显著提升。具体而言，DINOv3的训练数据量增加了12倍至17亿张图像，参数数量增加了7倍至70亿。此外，DINOv3引入了多项创新技术，如Gram锚定技术以解决密集特征图退化问题，以及旋转位置编码（RoPE）以适应不同分辨率输入。

在性能方面，DINOv3在多个密集预测任务中表现出色，例如在语义分割任务中，其mIoU在ADE20k数据集上达到55.9，远超DINOv2和SigLIP 2；在Cityscapes数据集的测试中，mIoU达到81.1，超过了AM-RADIOv2.5和PEspatial。此外，DINOv3在视频与3D任务中也展现出强大的迁移能力，适用于环境监测、自动驾驶、医疗等领域。

DINOv3的开源和商业化部署也受到广泛关注。Meta通过开源DINOv3的训练代码和预训练模型，支持社区在不同计算需求下的应用，包括轻量级模型和高性能模型的部署。此外，DINOv3的自监督学习方法为计算机视觉领域提供了新的范式，推动了无需人工标注的视觉模型的发展。

DINOv3作为Meta在视觉领域的重大突破，不仅在技术上实现了突破，还在实际应用中展现出广泛的应用前景

DINOv3 视觉大模型

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！

Meta重磅开源DINOv3！无需人工标注的AI视觉神器

腾讯云推出AI开发工具CloudBase AI CLI 可减少80%编码量

中国香港大学与月之暗面等机构合作，共同开源了名为OpenCUA的项目