多模态技术已成为推动游戏内容与元宇宙建设的关键力量。扎克伯格表示,DINOv2 将被用于制作更具沉浸感的元宇宙。在 AI 大模型竞赛中,Meta 选择重押视觉模型,并在推出零样本分割一切的 SAM 后,扎克伯格亲自官宣了重量级开源项目 DINOv2。
据了解,DINOv2 是计算机视觉领域的预训练大模型,拥有 10 亿级参数量,采用 Transformer 架构,可在语义分割、图像检索和深度估计等方面实现自监督训练。无需微调,即可应用于多种下游任务,从而改善医学成像、粮食作物生长、地图绘制等领域。
DINOv2 的亮点主要体现在两方面:
其一是为大语言模型提供丰富的图像特征,有助于完善多模态 GPT 应用;其二是蒸馏成小模型后效果依然优秀,便于在各种边缘场景及本地化落地。
Meta 已表示计划将 DINOv2 集成到更大、更复杂的 AI 系统中,作为视觉主干提供丰富的图像特征与大型语言模型进行交互。国盛证券分析师刘高畅表示,DINOv2 能比用图像文本对做训练的模型得到更丰富的图像特征,这将让整个系统能更好地理解图像,对多模态 AI 的发展起到加速作用。
值得关注的是,多模态技术还能助力游戏内容与元宇宙构造。随着 AR/VR 技术的发展,未来将能构建逼真的虚拟现实。扎克伯格强调,DINOv2 可以极大地加持元宇宙的建设,让用户在元宇宙中的沉浸体验更出色。
上述分析师预测,在未来 1-5 年内,随着多模态的发展带来 AI 泛化能力提升,通用视觉、通用机械臂、通用物流搬运机器人、行业服务机器人、真正的智能家居将进入生活。在未来 5-10 年内,结合复杂多模态方案的大模型有望具备完备的与世界交互的能力,在通用机器人、虚拟现实等领域得到应用。
针对边缘场景落地,简言之就是将大模型移植到移动端或算力有限的场景。运行大型模型需要强大的硬件,这可能会限制模型在 C 端场景的应用。为大模型“瘦身”成为手机等移动终端运行大模型的前提,其技术路径多样,包括通过剪枝让模型稀疏化、知识蒸馏对模型进行压缩、通过权重共享来减少参数量等。
DINOv2 即采用模型蒸馏的方式,将大型模型的知识压缩为较小的模型,从而降低推理时的硬件要求。据官方介绍,Meta 开源了多个不同参数规模的预训练模型,在相同的规模下比较,DINOv2 在多种测试基准的得分都能优于目前开源视觉模型中表现最好的 OpenCLIP。
除了 Meta,高通、华为等科技巨头也在致力于实现 AI 大模型在终端的轻量化部署。谷歌、腾讯、百度等已将模型压缩技术紧密结合移动端模型部署框架/工具。
综上所述,随着多模态 AI 技术的发展,元宇宙建设将迎来新的契机。Meta 的 DINOv2 视觉大模型不仅有助于完善多模态 GPT 应用,还能在边缘场景及本地化落地中发挥重要作用。
未来,随着多模态技术在通用视觉、通用机器人、虚拟现实等领域的发展,人们的生活将变得更加智能和便捷。