百度大脑“突围”史上最难ECCV:10篇论文入选,尽显国际AI顶流风范
|
如何在复杂视听场景中实现机器多模态感知是一个非常有趣但富有挑战性的问题。论文中,百度联合上海交通大学着重探索如何在缺少声音和物体配对标注的情况下,实现多声源场景中声源物体的视觉定位。具体地,研究人员利用二阶段的音视频关联学习框架,首先将复杂的多声源场景解耦为多个简单场景,其次基于类别和场景实现精细的跨模态特征对齐,构建声音和物体的配对。 实验结果充分证明了该模型能够有效地在复杂场景中建立声源物体及其声音之间的对应关系。所提出的模型在公开数据集的定位任务上取得了先进的效果,并在复杂场景的多源声音定位上达到了可观的性能; 同时,获得的声源定位结果亦能够有效地应用于声音分离任务,准确分离出物体对应的声音。 论文6:Graph-PCNN: Two Stage Human Pose Estimation with Graph Pose Refinement 关键词:人体姿态估计,关键点定位,两阶段,图结构姿态改善
在人体姿态估计任务中,目前主流算法主要采用基于热力图回归的方案,通过解码热力图获取关键点的坐标。论文中,百度旨在探索一种优化方案进一步提升定位精度,并提出两个改进思路:1)粗定位和精定位使用不同的特征图 2)考虑关键点之间的关联关系。基于以上思路,研究人员提出了一个基于图结构的、模型无关的两阶段训练框——Graph-PCNN。该框架在原有热力图回归框架上增加了一个定位子网络和一个图结构姿态优化模块;其中热力图回归网络则作为第一阶段,用于提供各关键点的粗略定位,为第二阶段提供候选点;定位子网络作为第二阶段,用于对各关键点的候选点提取视觉特征,并回归最终的关键点坐标。 为了进一步利用各关键点之间的关联关系,这里使用图结构姿态优化模块对各关键点的候选点特征进行优化,从而获得更精确的回归结果。实验证明,Graph-PCNN可以适配多种不同的基础网络,并大幅提升定位精度。在COCO test-dev集合上,新提出最优模型的AP可以得到76.8%,达到领先水平。 论文7:Segment as Points for Efficient Online Multi-Object Tracking and Segmentation 论文链接: https://arxiv.org/abs/2007.01550 关键词:多目标跟踪,实例分割
(编辑:PHP编程网 - 湛江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |



