Meta重磅开源DINOv3!无需人工标注的AI视觉神器

AI资讯 10小时前 硕雀
4 0

Meta重磅开源的DINOv3是一款基于自监督学习视觉大模型,无需人工标注数据即可进行训练,大幅降低了训练时间和资源需求。DINOv3在多个视觉任务中表现出色,包括图像分类语义分割、深度估计等,其性能在多个基准测试中超越了同类模型。

DINOv3的模型架构采用了定制化的Vision TransformerViT)架构,拥有70亿参数,相比前代DINOv2在参数量和训练数据量上均有显著提升。具体而言,DINOv3的训练数据量增加了12倍至17亿张图像,参数数量增加了7倍至70亿。此外,DINOv3引入了多项创新技术,如Gram锚定技术以解决密集特征图退化问题,以及旋转位置编码RoPE)以适应不同分辨率输入。

在性能方面,DINOv3在多个密集预测任务中表现出色,例如在语义分割任务中,其mIoU在ADE20k数据集上达到55.9,远超DINOv2和SigLIP 2;在Cityscapes数据集的测试中,mIoU达到81.1,超过了AM-RADIOv2.5和PEspatial。此外,DINOv3在视频与3D任务中也展现出强大的迁移能力,适用于环境监测、自动驾驶、医疗等领域。

DINOv3的开源和商业化部署也受到广泛关注。Meta通过开源DINOv3的训练代码和预训练模型,支持社区在不同计算需求下的应用,包括轻量级模型和高性能模型的部署。此外,DINOv3的自监督学习方法计算机视觉领域提供了新的范式,推动了无需人工标注的视觉模型的发展。

DINOv3作为Meta在视觉领域的重大突破,不仅在技术上实现了突破,还在实际应用中展现出广泛的应用前景

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!