近日,机器学习和计算神经科学领域的顶级会议NeurIPS 2023放榜,今年会议接收率为26.1%。犀牛鸟精英人才、中国科学院自动化研究所博士生许逸凡带着支持多模态查询的检测大模型研究成果走进NeurIPS,这是他第一篇被NeurIPS接收的论文。
许逸凡是中国科学院自动化研究所在读一年级博士生,研究方向为多模态开放认知,曾在AAAI、TOMM等多个顶会和期刊中发表高水平学术文章。带着对于通用多模态认知模型的梦想,逸凡入选2022犀牛鸟精英人才计划,在腾讯优图实验室进行为期一年的研究访学。期间在学界导师徐常胜研究员和企业导师Davina的联合培养下,专注于多模态开放词汇检测领域的学术研究。
许逸凡个人生活照
在研究过程中,逸凡和所在团队发现现有检测大模型“广而不精”的问题,即单纯利用文本描述很难处理业界实际遇到的细粒度的类别。由此,他们提出了基于多模态查询的目标检测(MQ-Det),以及首个同时支持文本描述和视觉示例查询的开放世界检测大模型。MQ-Det在已有基于文本查询的检测大模型基础上,加入了视觉示例查询功能。通过引入即插即用的门控感知结构,以及以视觉为条件的掩码语言预测训练机制,使得检测器在保持高泛化性的同时支持细粒度的多模态查询,为用户提供更灵活的选择来适应不同的场景。其简单有效的设计与现有主流的检测大模型均兼容,适用范围非常广泛。实验表明,多模态查询能够大幅度推动主流检测大模型的开放世界目标检测能力,例如在基准检测数据集LVIS上,无需下游任务模型微调,提升主流检测大模型GLIP精度约7.8%AP,在13个基准小样本下游任务上平均提高了6.3% AP。同时,多模态查询功能的引入仅给主流检测大模型带来额外3%的调制训练时间,使得模型可快速泛化到各种下游场景中,有效降低下游落地成本。经过不断的试错和调整,在校企导师的指导下,逸凡将工作提交至NeurIPS。
得知自己首篇NeurIPS就被录用,逸凡很开心地谈道:“十分幸运,在博士生涯开始的第一年就入选了精英计划,在多模态查询的检测领域做了很多尝试,还收获了第一篇NeurIPS,这对我是莫大的鼓励。优图实验室的科研氛围非常好,每次和导师探讨交流都能让我迸发出新的科研思路和想法,NeurIPS这篇文章中的重要策略就是在和企业导师探讨中得到的。另外,这一年里我也深刻意识到写作技巧对科研文章的重要性,也很感谢企业导师和同事们对我文章的反复打磨和锤炼。博士阶段是一个很好的契机,可以心无旁骛做一些纯粹的科研。未来希望我能多做些有影响力的科研成果!”
企业导师Davina表示:“逸凡在研究初期,充分调研熟悉相关领域的工作,基本功很扎实,对于多模态开放词汇检测领域的痛点与难点逐渐有了深刻的理解。这篇论文是首个支持多模态查询的检测大模型研究成果,在研究路径上并非一帆风顺,遇到研究卡点,他能沉下心思考,乐于交流,在共同探讨中激发新的思路,执行力也很强,能快速尝试迎接挑战。期望他能继续秉持不骄不躁的研究态度,在多模态领域继续深耕,做出更有影响力的工作!”