百度大脑“突围”史上最难ECCV:10篇论文入选,尽显国际AI顶流风范
|
现有的多目标跟踪与实例分割(MOTS)算法框架大多采用检测-跟踪这一方案,其中,主流方法多采用2D卷积神经网络提取实例的特征。然而,由于受到感受野范围的影响,采用2D卷积神经网络对实例提取特征过程中,不可避免地会将实例前景信息与背景信息混合在一起,严重影响后续帧间关联的准确率。论文中,百度将图像像素转化成2D的“点云”,并提出一种全新的基于实例分割掩膜的特征提取方法。对于每一个实例,研究人员利用前景像素和背景像素分别构建3D“点云”,对于每一个2D“点云”中的点,则进一步结合颜色、位置、类别等多种模态的特征。 随后,通过借鉴Pointnet 3D点云处理网络结构,完成对每个实例提取特征。新提出的PointTrack为一整套全新的在线MOTS算法框架,效果超过此前最好方法MOTSFusion 5.4%(MOTSA),并达到了接近实时的处理帧率22FPS。最后,研究人员还提出了一个更有挑战性的MOTS数据集-APOLLO MOTS,相比KITTI-MOTS,实例的密度提升约68%。 论文8:Describing Unseen Videos via Multi-Modal Cooperative Dialog Agents 关键词:视频描述,对话代理,多模态学习
对于人工智能系统的安全性担忧正随着其接触到的越来越多的敏感信息而增加,研究人员为此也一直在追求创造更为安全可靠的人工智能系统。论文中,百度提出一个全新的视频描述任务,旨在以两个代理之间的自然语言对话作为主要信息媒介来描述视频。相比于直接传输视频,自然语言更具有透明性,难以传递人脸等敏感隐私信息。具体来说,任务中包含两个对话代理,即外界提问代理Q-BOT和内部回答代理A-BOT;其中Q-BOT仅通过视频首尾两帧静态图像对视频中所展现的环境有模糊感知,而A-BOT则可以看到完整的视频音频信息和相应的视频描述。 任务过程中,Q-BOT可以向A-BOT询问视频相关的十个问题,A-BOT则针对这些问题给出答复,在十轮问答之后,Q-BOT需要根据初始的两帧静态图像与对话信息对视频作出具体描述。此外,论文还提出一个可以让两个代理之间进行有效信息传递的网络架构。实验证明Q-BOT可以有效通过对话交互来完成描述视频的任务。 论文9:Collaborative Video Object Segmentation by Foreground-Background Integration 论文链接:https://arxiv.org/abs/2003.08333 关键词:视频目标分割,度量学习
(编辑:PHP编程网 - 湛江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |



