让机器“多感官进化”——云从科技x上海交大跨模态技术成果入选顶会EMNLP 2021

2021-11-12
back



   让机器实现多感官同步进化,

   做到像人类一样同时看懂、听懂、读懂


近日,国际NLP领域顶级会议EMNLP 2021正式举办。云从科技与上海交通大学联合研究团队的《Relation-aware Network:探索视频片段定位任务中的多种层面关系》成功入选会议论文,并于大会进行线上宣讲。

EMNLP(Conference on Empirical Methods in Natural Language Processing)是计算语言学和自然语言处理领域的顶级国际会议之一,由国际语言学会(ACL)旗下SIGDAT组织。EMNLP论文入选标准十分严格,今年论文录取率仅23.3%,相比去年略有下降。EMNLP学术会议上展示的研究成果,被认为代表着自然语言处理领域的前沿水平与未来发展方向。


本次云从科技与上海交大联合团队的入选论文,围绕“基于语言查询的视频片段定位”这一视觉-文本的跨模态任务,将NLP与视觉技术结合,技术让机器同时具备“理解文字”和“看懂视频”的能力:能够更精准地读懂文字,并理解视频内容,在整段视频中找出与给定文字相对应的视频片段。该项成果在多个数据集上,都取得了优于过去研究的表现。


这一成果在技术研究与实践领域都具有十分重要的意义:


技术上让机器实现“多感官进化”

在云从看来,视觉、听觉等单点AI技术,将越来越难以满足多样的应用需求。云从与上交大的该项技术,旨在让机器向完成“跨模态任务”进化:让机器能够同时掌握视觉、文字等多种模态的信息,做到像人类一样看懂、听懂、读懂,拥有全面的能力。近年来在学界,跨模态任务已成为一大研究热点,为AI领域注入新的活力。

突破单点技术,扩大跨模态应用场景

在实战场景中,随着高清摄像头的普及以及网络媒体的快速发展,各式各样的视频呈海量增长态势,自动化视频处理AI技术也迎来巨大的需求。云从与上海交大的本项成果——基于语言查询的视频片段定位技术,能够有效解决治理、出行等多领域的难点问题,例如公共场合下的安全监控、社交媒体视频内容的审核等等,突破以往的单点技术应用瓶颈,带来数量级的效率提升


今年以来云从的多项技术频频在国际权威数据集、顶级会议上收获佳绩:本次入选EMNLP,也是云从今年在继视觉、语音等领先技术获得国际认可后,在NLP领域斩获的又一成果。NLP等决策技术被认为是AI领域下一个技术突破口,使机器拥有理解、思考、分析决策的能力,为人机交互、行业应用等带来颠覆式改变。


在技术持续领先与创新的背后,是云从对于技术与产业变革的深刻理解。

人工智能产业经历了单点技术的发展后,如今已来到云从定义的“二浪时代”,客户寻求以智能解决方案实现全业务链条的 AI 赋能,形成行业价值闭环。云从紧密把握产业趋势,突破了一般AI企业单点技术的局限,构筑起感知-认知-决策的核心技术闭环,凭借原创的核心技术,打造更全面的人机协同操作操作系统与行业智能化解决方案,加快各行业的智能化变革



论文解读

云从科技与上海交通大学联合研究团队提出Relation-aware Network,探索视频片段定位任务中的多种层面关系




1

//  概述

基于语言查询的视频片段定位任务(Temporal Language Grounding):该任务是给定一个视频和一段描述语句,通过融合视觉和语言两种模态的信息,在视频中定位出语言所描述内容的视频片段。随着高清摄像头的普及以及网络媒体的快速发展,每天都会出现大量各式各样的视频,作为视觉-文本的跨模态任务,基于语言查询的视频片段定位也受到了越来越多的关注。

一方面,已有的视频片段定位方法通常只考虑了视频片段和整个句子的关系,而忽略了视频片段和句子中每个词语这种更加细致的关系,这样就不能全面地交互视觉和语言的信息,上交和云从联合团队的研究者们提出了一种coarse-and-fine的交互方式,从粗粒度和细粒度的角度同时考虑了视频片段-句子层面和关系和视频片段-词语层面的关系。另一方面,现有的工作往往忽视了不同视频片段之间的关系,或者仅仅采用了几层卷积网络的堆叠,存在计算量大、有噪声影响等缺点,本文的研究者们提出了一种稀疏连接的图网络,仅仅考虑了起始或者终止时间相同的视频片段,高效地建模了不同视频片段之间的关系,帮助模型更好地区分视觉上相似的视频片段。


2

//  研究方法

 研究者们认为,基于语言查询的视频片段定位任务(Temporal Language Grounding),在某种程度上和自然语言理解中的多项选择阅读理解任务(Multi-choice Reading Comprehension)类似,可以把给定的视频、查询语言以及候选的视频片段分别类比为阅读理解中的文章、问题和候选答案。在将问题转化为阅读理解任务之后,研究者们提出了RaNet来解决该问题。




RaNet一共包含5个部分:(1)多模态的特征编码模块;(2)候选视频片段的生成模块;(3)候选视频片段和查询语句的交互模块;(4)不同视频片段的关系构建模块;(5)结果选择模块。(详情请见论文原文)


3

//  实验结果

研究者们通过大量的实验验证了RaNet对于基于语言查询的视频片段定位任务的有效性。

与SOTA模型的比较:

本文在3个常见数据集TACoS、Charades-STA、ActivityNet Captions上,采用了Rank n@m评价指标,与以往的工作进行了对比,在3个数据集上基本都取得了SOTA的表现。




4

//  结论

针对基于语言查询的视频片段定位这个任务,云从-上交大联合研究团队提出了探索多层关系的RaNet,将视频片段定位类比为自然语言处理中的多项选择阅读理解,同时建模了视频片段-句子层面和视频片段-单词层面的关系,并且提出了一种稀疏连接的图网络高效地建模了不同视频片段之间的关系,在公开数据集上取得了SOTA表现。

更多的技术细节请见论文原文

论文地址:https://arxiv.org/abs/2110.05717

代码地址:https://github.com/Huntersxsx/RaNet


参考文献

 

[1] Songyang Zhang, Houwen Peng, Jianlong Fu, and Jiebo Luo. 2020b. Learning 2d temporal adjacent networks for moment localization with natural language.  In Proceedings of the AAAI Conference on Artificial Intelligence, volume 34, pages 12870–12877.

[2] Mengmeng Xu, Chen Zhao, David S. Rojas, Ali Thabet, and Bernard Ghanem. 2020. G-tad: Sub-graph localization for temporal action detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).

[3] Zilong Huang, Xinggang Wang, Lichao Huang, Chang Huang, Yunchao Wei, and Wenyu Liu. 2019. Ccnet: Criss-cross attention for semantic segmentation. In

2019 IEEE/CVF International Conference on Computer Vision (ICCV), pages 603–612.



您可能感兴趣

全国热线电话

400-151-5992

周一到周五9:30-18:00(北京时间)

  • 商务合作:business@cloudwalk.com

  • 媒体合作:Media@cloudwalk.com

  • 渠道合作:business_partner@cloudwalk.com

  • 人才招聘:zhaopin@cloudwalk.com

Copyright©2024 粤公网安备 44011502001099号

粤ICP备15087156号 云从科技集团股份有限公司

AI开放平台/云从logo/使用条款/法律声明/防诈骗声明
关注我们

扫描二维码,关注云从科技
精彩一手掌握

留言咨询

请填写以下表格,我们的销售代表会尽快与您联系

  • 姓名 *
  • 工作邮箱
  • 电话 *
  • 城市 *
  • 公司名称 *
  • 行业
  • 职位
  • 产品/解决方案
    AI定义设备
    场景定义设备
    机场专用产品
    刷脸支付终端
    活体模组
    智慧金融
    智慧治理
    智慧交通
    智慧商业
  • 预算
  • 请输入需求描述 *

提交成功

我们的销售代表会尽快与您联系