微软统一预训练语言模型与机器阅读理解技术荣

2019-10-26 作者:社会   |   浏览(90)

  微软全球执行副总裁,微软人工智能及微软研究事业部负责人沈向洋博士出席了发布盛会并介绍了这一突破性研究成果。

  近年来,自然语言处理领域进入了一个新的研究和应用范式——预训练加微调,其基本思想是将训练大而深的端对端的神经网络模型分为两步。首先在大规模文本数据上通过无监督学习预训练大部分的参数,然后在具体的自然语言处理任务上添加与任务相关的神经网络(这些神经网络所包含的参数远远小于预训练模型的参数量),并根据下游具体任务的标注数据进行微调。由此,研究者就可以将通过预训练从大规模文本数据中学到的语言知识,迁移到下游的自然语言处理和生成任务模型的学习中。

  2019年,微软亚洲研究院发布了最新的预训练语言模型的研究成果——统一预训练语言模型UniLM(Unified Language Model Pre-training),该模型涵盖两大关键性的技术创新。一是提出了统一的预训练框架,使得同一个模型可以同时支持自然语言理解和自然语言生成任务,而之前大部分的预训练模型都主要针对自然语言理解任务。第二大创新是提出了部分自回归预训练范式,从而可以更高效地训练更好的自然语言预训练模型。

  统一预训练语言模型UniLM在一系列自然语言理解和生成任务中均取得了领先的实验结果,相关论文已被NeurIPS接收。后续我们将发布相关文章,对UniLM模型的技术细节进行详细介绍。

  在自然语言处理领域中,机器阅读理解是一个经典且充满挑战的问题,在日常生活中也有着丰富的应用场景。近年来,机器阅读理解技术发展迅速,除了端对端的神经网络模型和预训练语言模型的突破外,大规模数据集也起到了非常重要的推动作用。

  SQuAD的任务是给定一个文本段落和问题,机器阅读系统需要从中找到问题对应的答案,或是判断出没有对应的答案。CoQA则可以看作SQuAD的多轮问答版本,即给定一个文本段落,机器阅读系统在回答完一个问题后,需要进一步回答后续的相关问题,因此在回答问题的同时还需要理解上下文。两大任务以国际评测挑战赛的形式进行,促进了端对端神经网络在机器阅读理解和自动问答方面的研究,也同时见证和推动了预训练模型的突破和进步。

  微软亚洲研究院在SQuAD和CoQA两大数据集上均取得了突破性领先的成绩,继2018年1月首次在机器阅读理解挑战赛SQuAD中率先超越人类水平后,又于2019年3月首次在对话式问答挑战赛CoQA中使各项指标超越人类水准。

  微软亚洲研究院的统一预训练语言模型和机器阅读理解技术相关的研究成果发表在了包括NeurIPS、ACL、EMNLP、AAAI、IJCAI等在内的自然语言处理和人工智能领域顶级的国际学术会议上。同时,相关技术也已广泛转化入微软的产品中,比如,应用在必应(Bing)搜索中的问答服务、微软广告中的生成和排序任务,以及Word中的语法错误修正等。而这其中的不少工作都得益于微软亚洲研究院与微软研究院以及微软多个产品部门的紧密合作。

  为了与学术界和产业界的伙伴们一起,进一步推动自然语言理解和生成的发展与创新,微软亚洲研究院已将统一预训练语言模型UniLM(v1)在GitHub上开源。

微软统一预训练语言模型与机器阅读理解技术荣

社会推荐