九江久欣设备有限公司

微柔发布史上最大AI模型:170亿参数横扫各栽说话建模基准,将用于Office套件

admin 2020-02-19 21:30 未知

原标题:微柔发布史上最大AI模型:170亿参数横扫各栽说话建模基准,将用于Office套件

乾明 发自 凹非寺

量子位 报道 | 公多号 QbitAI

今天(2月11日),微柔发布史上最大说话模型,名为 Turing-NLG。

170亿参数目,是此前最大的说话模型英伟达“威震天”(Megatron)的两倍,是OpenAI模型GPT-2的10多倍。

“随着更大的自然说话模型导致更好首先的趋势,微柔引入了Turing-NLG,”微柔在钻研博客中写道。“它在各栽说话建模基准方面的外现超过了最先辈的程度,并且在很多实际义务的行使上,比如回答题目和概要生成方面外现都相等特出。”

与此同时,微柔钻研也发布了另一篇博客文章,介绍了用于分布式训练大型模型的DeepSpeed深度学习库和ZeRO优化技术,并外示倘若异国这些突破,Turing-NLG不能够完善。

史上最大说话模型

Turing-NLG,简称T-NLG,是一个基于Transformer的生成说话模型,能够生成单词来完善盛开式的文本义务,比如回答题目,挑取文档概要等等。

微柔认为,想要在任何情况下,都能使机器像人类相通直接、实在、流畅地做出逆答,开发像T-NLG云云的生成模型对解决NLP义务特意重要。

以前,回答题目和挑取概要的体系,重要倚赖于从文档中挑取现有的内容。固然能够行为替代答案或概要,但往往显得不自然或不连贯。

“有了T-NLG,吾们能够自然地总结或回答相关幼我文件或电子邮件线程的题目,”微柔外示。

睁开全文

这背后的逻辑在于:即使训练样本较少,但模型越大,预训练的数据越多样化和周详,它就越能更好地推广到多个下游义务。

于是,微柔也认为训练一个大型的荟萃式多义务模型,并在多多义务之间共享它的能力,比为每个义务单独训练一个新模型更有效。

T-NLG是怎么训练出来的?

训练大型模型的一个常识是:任何超过13亿参数的模型,单靠一个GPU(即使是一个有32GB内存的 GPU)也是不能够训练出来的,因此必须在多个GPU之间并走训练模型,或者将模型分解成多个片面。

微柔介绍称,能够训练T-NLG,得好于硬件和柔件的突破,统统表现在三个方面:

第一,他们行使NVIDIA DGX-2硬件设立,行使InfiniBand连接,以便GPU之间实现比以前更快的通信。 第二,行使四个英伟达V100 GPU,在英伟达 Megatron-LM框架中行使张量切片分割模型。 第三,行使Deepspeed和ZeRO降矮了模型的并走度(从16降矮到4) ,将每个节点的批处理大幼增补4倍,并且缩短了三倍的训练时间。

Deepspeed使得行使更少的GPU训练特意大的模型更有效率,并且它训练的批量大幼为512,行使256个 NVIDIA GPU。倘若用Megatron-LM 必要1024个 NVIDIA GPU。此外,Deepspeed还与PyTorch兼容。

首先的T-NLG模型中,有78个Transformer层,常见问题暗藏大幼为4256,有28个留神头。

为了使模型的首先能与Megatron-LM媲美,他们行使了与其相通的超参数和学习时间外进走预训练。与此同时,他们也行使与Megatron-LM相通类型的数据对模型进走训练。

成果达到最先辈程度,将用于Office套件

模型预训练完善后,他们也在WikiText-103(越矮越好)和LAMBADA(越高越好)数据集上,与英伟达Megatron-LM和OpenAI的GPT-2完善版进走了比较,都达到了最新的程度。

不光仅是数据集上,微柔也公布了T-NLG在详细义务中的外现。

最先是回答题目。其不光能够行使一个完善的句子回答,还能够在不必要上下文的情况下回答题目,比如下面的这个题目并异国给出更多的新闻。在这些情况下,T-NLG能基于预训练中获得的知识来生成一个答案。

其次是生成概要。微柔外示,为了使 T-NLG 尽能够多用于总结迥异类型的文本,他们几乎在一切公开可用的概要数据集上以多义务的手段完善了T-NLG模型,统统约400万个训练实例。

他们与另一个最新的基于Transformer的说话模型PEGASUS,以及先前最先辈的模型进走了比较,ROUGE评分首先如下,基本上实现了超越。

实际成果怎样?

为了秀这个模型的能力,微柔用T-NLG模型,给介绍 T-NLG的博客文章写了一份概要:

Turing Natural Language Generation (T-NLG) is a 17 billion parameter language model by Microsoft that outperforms the state of the art on many downstream NLP tasks. We present a demo of the model, including its freeform generation, question answering, and summarization capabilities, to academics for feedback and research purposes. <|endoftext|>

Turing Natural Language Generation (T-NLG) is a 17 billion parameter language model by Microsoft that outperforms the state of the art on many downstream NLP tasks. We present a demo of the model, including its freeform generation, question answering, and summarization capabilities, to academics for feedback and research purposes. <|endoftext|>

正如概要中所说的,微柔的T-NLG现在并偏差外公开。

对于T-NLG的行使潜力,微柔说它为其和客户挑供了新的机会。

除了经由过程总结文档和电子邮件来撙节用户时间,还能够经由过程向作者挑供写作协助和回答读者能够挑出的关于文档的题目,来添强行使 Microsoft Office 套件的体验,打造更强的座谈机器人等等。

微柔外示,他们对新的能够性感到昂扬,将不息挑高说话模型的质量。

关于文章中挑到的ZeRO & DeepSpeed,倘若你兴趣味,能够进一步浏览下微柔的官方博客文章,其中DeepSpeed开源了, ZeRO的论文也已经发布:

https://www.microsoft.com/en-us/research/blog/zero-deepspeed-new-system-optimizations-enable-training-models-with-over-100-billion-parameters/

— 完—

今晚直播!主题:教你 基于华为云ModelArts,开发口罩佩戴检测AI模型,对众目睽睽监控摄像头的视频进走实时分析,检测民多是否佩戴口罩。

回复“直播”,即可添入直播社群:

今晚直播 | 不会写代码,也能开发AI模型

在家学编程 | 柯基编程双师互动课

选举给7-12岁的幼至交,一个好玩又兴趣的事情:在家学习编程。这是一个绝佳的逻辑思想、数理思想、计算思想的升迁手段。

柯基少儿编程入门课限时优惠招生,2020年2月17日、29日两个开课时间可选,统统七个课时,现在只需48元,而且学完课程学费全返。

这个意思就是:免!费!学!

迎接爸爸妈妈们扫描下面的二维码查望、报名:

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

爱就点「在望」吧 !



Powered by 九江久欣设备有限公司 @2018 RSS地图 html地图

Copyright 站群 © 2013-2018 版权所有