提供的预定义基类的框

rochona · Post by **rochona** » Sat Jul 12, 2025 11:32 am

先前的方法（左）在训练过程中依赖于人工级注释，并在推理过程中尝试推广到新类别的对象。我们的方法（右）利用预训练视觉语言模型的定位能力，从大规模图像-字幕对中生成伪边界框注释。然后，我们利用伪边界框注释来改进我们的开放词汇对象检测器。

帮助解决现实世界的问题
我们的方法也使得实现真正的 OVD（可视物体检测）成为可能，该系统能够识别现实世界中种类繁多、数量不计其数的物体——因为在我们的方法中，只要我们拥有涵盖稀有物体的现有图像-字幕对，就可以自动高效地生成这些物体手机号数据库列表的伪标签。通过消除需要人工注释的瓶颈，我们终于可以在开发通用物体检测系统的道路上迈出一大步。

有了这种通用物体检测器作为支撑，许多与视觉相关的现实世界问题的解决方案可以得到极大增强，包括机器人导航、自动驾驶和智能交通。

深入探究：我们的方法如何运作
我们的框架包含两个组件：伪边界框标签生成器和开放词汇对象检测器。我们的伪标签生成器利用预先训练的视觉语言模型，自动为各种对象生成边界框标签。然后，我们直接使用生成的伪标签来训练检测器。

标签生成：通过 AI 生成伪边界框标签
图 3 展示了伪标签生成的整体流程。我们的目标是利用预训练视觉语言模型中图像区域与其对应标题中的单词之间的隐式对齐，为图像中感兴趣的对象生成伪边界框标注。

图 3.我们的伪边界框注释生成过程的说明。