国科大MBA | 领域大数据系列讲座之《视觉媒体的上下文关联分析与理解》

+关注
中国科学院大学人工智能与应用MBA项目特色课程《领域大数据系列讲座》第六期如期开讲。

2021年11月12日,中国科学院大学人工智能与应用MBA项目特色课程《领域大数据系列讲座》第六期如期开讲,邀请到中国科学院计算技术研究所蒋树强研究员,通过线上与同学们分享“视觉媒体的上下文关联分析与理解”。本期讲座由经济与管理学院副院长田英杰教授主持。

蒋树强研究员从现实需求与国家战略切入,引出视觉媒体分析与理解是新一代人工智能技术体系重要组成部分,是我国需要实现超越的核心技术领域,并重点介绍了视觉媒体的“局部区域关联”、“多模态关联”两大研究问题及相应的创新方法,同时对“图像识别技术”、“动态视频识别与预测”进行了普及。

“人类具有与生俱来的局部关联和全局聚合能力,如何建模和表示局部区域间的多样关联关系是视觉媒体分析的核心科学问题。” 蒋树强研究员讲到,“局部区域关联表示局部区域是组成图像的基本单元,包含丰富而多样的信息,局部区域间也存在多种形式的关联。”通过建立局部模式的非均等化处理机制,蒋树强研究员提出了局部概念关联分布学习方法,突破了概念分布在局部区域独立处理的限制,并由此引出三种技术思路及对应的创新方法:

(一)对于局部区域在空间层面的概念共生性关联,使用局部语义描述的共生建模。该方法首次在概念空间构建分层局部上下文关联,在特值维度只有2%的情况下,识别准确率提升1.5%。(二)对于局部区域在尺度层面的概念差异性关联,使用局部区域多尺度多模型融合。该方法基于局部区域响应差异性构建了多尺度多源融合模型,消除了多源模型中的尺度敏感性偏差,实现了模型景物表达能力的互补增强,在MIT67和SUN397上准确率比同期方法高出7%以上。(三)对于局部区域在类别层面的概念知识性关联,使用物体关系的关联表示与提取。该方法利用物体在场景中是空间分布提高场景识别性能,通过空间关系特征矩阵建模(COOR)和物体与空间关系的图题描述(SOOR)等多种空间关系建模,使得识别结果在当时公开的RBG-D数据达到了最好的性能。

“多模态关联是说视觉媒体本身不是孤立存在的,和其他模态的信息存在复杂多样的关联。”蒋树强研究员提出模态关联增强的视觉理解与交互的方法,实现了模态的差异性与适应性融合,克服了异质模态增益效用性低的问题,并展开介绍了以下三种方法:

(一)深度(Depth)图像神经网络表示方法:面对Depth图像数据量不足以训练深层CNN模型和RGB模态微调不能很好刻画深度图像特征的挑战,采用“图像块弱监督预训练”及“全局图像微调训练”的解决方案,取得了比从RGB模态的迁移特征表示的更好结果(提升4.9%),解决了Depth深度模型依赖RGB预训练的问题。

(二)基于地理信息的图像识别:通过本人手机及餐厅的地理信息,计算图像属于每一类的概率,选择最高得分对应的类别作为预测结果。这里蒋树强研究员结合“食品+AI”的研究展开讲解,提出了食品计算框架及相应的分类体系,并和美团、普惠三农等一起开展食品智能分析技术的产学研合作。

(三)双轨多模态自动学习技术:视觉轨道能够同时具有学习新类别和新事例的能力,知识轨道通过挖掘各种多模态信息实现对知识的持续更新,两者关联增强。

之后蒋树强研究员对图像识别技术做了普及,在视觉感知的能力与挑战、研究意义、产学界关注、主要研究任务以及图像理解与描述任务等几方面做了简要介绍。

在动态视频识别与预测方面,蒋树强研究员重点对视频理解的三个工作展开进行讲解:

(一)异常干扰感知的视频识别:主要指面向异常状态的实时场景识别系统,如环境亮度变化、视频帧模糊、深度信息缺失等,通过梯度敏感卷积核与感知异常状态的注意力机制来进行训练与提升。(二)结合直觉与因果等因素的第一视角视频行为预测:主要应用在视屏监控、自动驾驶等领域,预测尚未发生的行为,为决策提供技术支持。蒋树强研究员这里提出一个实用场景,如何在只观看部分视频的情况下,预测后续未看到的动作,并从心理学角度出发,构建一个融入直觉与分析的第一视角行为预测模型,提升整体性能及低频类别预测率。(三)基于层次化场景建模的视觉导航:在三维环境中,给定目标物体的语义,智能体寻找该目标物体。通过构建物体到区域分层经验知识图等方法,提升找寻目标物体的概率。

“人工智能与各行各业的深度融合还处在起步阶段,发展空间潜力巨大。”最后,蒋树强研究员以分享心得收尾,并与同学们进行了交流互动。

蒋树强研究员的讲解采用理论与应用相结合的方式,深入浅出层层递进,激发了同学们的学习热情,取得了非常好的效果。同学们纷纷表示对视觉媒体分析与理解方面有了基本的了解,并愿意探索人工智能在自身行业的积极应用,为自己热爱的行业做出更大的贡献。

收藏 分享

微信扫一扫

猜你喜欢