电影《我,机器人》中的
朗宁博士说过一句话,
“有一天,机器人也会有梦想”。
而如何实现机器深度思考,
在人工智能发展过程中一直是个
全球性难题。
机器阅读理解正进行着此项挑战。
机器阅读理解的目标是教会机器学习并理解人类语言、像人一样思考与交流。
然而,长期以来机器阅读理解模型存在着不能有效理解篇章语义的瓶颈。
对此,云从科技与上海交通大学赵海教授团队联合发表了《Semantics-aware BERT for Language Understanding》论文。
针对机器阅读理解模型未能有效理解篇章语义的问题,从计算语言学角度,提出使用显性语义角色信息来改善深度语言模型的建模性能。
并将语义角色标注用于机器阅读理解和推理任务中,提供更加丰富和精准的语义信息。
论文地址:https://arxiv.org/abs/1909.02209
▲请复制上方地址粘贴到浏览器地址栏
该论文被全球人工智能领域权威会议AAAI 2020(AAAI, The National Conference on Artificial Intelligence)收录。
▲全球人工智能领域权威会议AAAI 2020
论文提出的SemBERT模型基于10个自然语言理解基准评测数据集,涉及自然语言推断、机器阅读理解、语义相似度判断和文本分类等多种类型的任务,有望成为大会新焦点议题。
这是继2019年3月,云从科技和上海交通大学提出的新模型登顶RACE排行榜第一名,成为世界首个超过人类排名的模型后,在自然语言处理(NLP)领域对机器阅读理解的进一步深入研究。
现有语言表示模型(包括ELMO、GPT、BERT、XLNet等),只利用简单上下文特征,如字符或子词嵌入,缺乏对结构化语言学信息的考虑。
本文针对机器阅读理解模型未能有效理解篇章语义,容易受到对抗攻击的问题,首次提出引入显性的语言角色结构信息,从而增进模型的语义表征和理解性能。
相对于基于预训练的大型语言模型,SemBERT更为简单且有效,且具有良好的扩展性。
新模型的提出不仅可以帮助机器理解人类文字和语言努力,还可运用到其他领域提升服务价值。
例如帮助企业做好风险防控、合规等事宜,同时还可以辅助文字审阅工作,从而让人类从枯燥的文字工作中解放出来。
为促进自然语言理解,本文提出通过预训练的语义角色标注模型引入显式的上下文语义标签信息。
并引入一种改进的语言表示模型——语义感知BERT (SemBERT)。
◆ 它能够在BERT为基础的骨架网络上,显性地融合上下文语义信息。
◆ SemBERT保持了BERT的易用性,只需进行适应性的微调,而无需对特定任务进行大幅度的模型修改。
◆ 与BERT相比,SemBERT在概念上同样简单,但性能却更为强大。
◆ 它在10项自然语言理解任务上显著地提升了基准模型,甚至达到了最佳的水平。
▲SemBERT模型架构
SemBERT模型包括三个部分:
◆ 语义角色标签器。用于对文本进行标注,给输入的句子标注谓词-论元结构(词级别);
◆ 序列编码模块。其中使用预训练的语言模型构建输入原始文本的向量表示,通过CNN将子词级表示重构为词级别实现与标签对齐;同时,将语义角色标签向量化,构建语义标签向量表示;
◆ 语义集成模块。用于将文本表示与语义标签向量表示集成融合,以获得可用于下游任务的联合表示。
▲SemBERT输入数据结构
实验显示了SemBERT有效增强BERT,并且获得了领先的结果。
本工作揭示了显性语义信息在自然语言理解上的有效性,这表明显式上下文语义可以与最新的预训练语言表示有效地集成融合,从而进一步提高性能。
▲GLUE实验结果
▲SQuAD实验结果
▲SNLI实验结果
除了这项工作中验证的各种任务之外,SemBERT还可以轻松地适应其他语言。
由于SRL是NLP的一项基本任务,因此CoNLL 2009提供了7个SRL树库,因此可以方便地训练主要语言的标签。对于那些没有可用的树库的场景,可以有效地应用无监督的SRL方法。
对于跨领域问题,我们所研究的数据集(GLUE和SQuAD)涵盖了非常不同的领域,并且实验表明我们的方法仍然有效。
专家预测,不久的未来机器阅读理解将让知识获取不受人脑的限制。
这也意味着,其对自然语言的处理将从浅层次的理解思考迈向更深层次的归纳总结、知识引用、推理归因以及知识图谱和迁移学习,这是趋势,也是方向。
“能理解,会思考”,这是我们对于机器阅读理解的希冀和目标。
周一到周五9:30-18:00(北京时间)
商务合作:business@cloudwalk.com
媒体合作:Media@cloudwalk.com
渠道合作:business_partner@cloudwalk.com