观察丨AI大模型热:如何从数据井喷的“原油”中炼“成品油”
近几年,百度、谷歌、微软、英伟达等“科技巨头”纷纷投入大量人力、财力相继推出各自的巨量模型,知晓度最高的如OpenAI的NLP大模型GPT-3,模型参数1750亿,耗资超过1200万美元。
“AI模型训练,要根据场景采数据、标数据,标注的数据量和质量是制约模型效果的瓶颈。而预训练AI大模型采用的是自监督学习的方式,不再需要人为标注数据。用无标注数据的自监督学习做预训练,基础模型学习的数据越来越大,同时模型也越来越大,再结合面向场景的迁移学习解决了很多问题。这是非常重要的技术突破,意味着有了一个方法可以高效地从井喷式产生的数据中进行学习。”4月16日,百度集团副总裁吴甜在百度认知AI创意赛决赛现场的演讲中表示。
AI大模型的的开发范式能把天然存在的大量数据利用起来,打破原来一定要精标数据才能学习的瓶颈。吴甜在讲解时对其意义作了一个生动比喻,“就如同是找到一种方法,从‘原油’中提取出来‘成品油’。”从这里,某种程度上也能窥见科技巨头们对AI大模型的重视由来。
真实AI落地场景的碎片化使得传统定制化、作坊式的模型开发方式无法复用和积累,每个新场景都需要重复一遍整个模型开发过程,AI开发的高成本使其在真实世界举步维艰。
AI预训练大模型如何解决这个问题?
大模型的基本原理是什么,如何落地应用?
吴甜在演讲开头抛出问题,“在以往模型训练需要大量的数据标注才能训练出足够精确的模型。然而这样的精标数据成本非常高昂,有没有可能让模型的数据本身不再成为瓶颈?”
预训练技术带来了这样的可能性。“用自监督学习方法让模型对海量无标注数据中的规律和知识进行提炼、学习,这样形成的预训练大模型就成为基础模型。在基础模型之上,当面向任务和场景应用时,只需少量的任务标注数据,通过微调就可以得到在应用场景中非常好用的模型。”吴甜解答。
类比人的学习来看,人的学习可以分两段:通识教育与专业教育。预训练大模型相当于解决AI模型的通识教育。
如何理解预训练大模型中的自监督学习?即不通过人工标注,而是通过自我构造监督信号进行学习。吴甜分享了一个例子来说明其中一种方法。在模型训练中,如果把“中国的首都是北京”这句话中的“北京”盖住,让模型去猜中国的首都是哪里,模型可能会猜一个城市,再把盖的地方翻开反馈模型正确还是错误,模型也就得到了反馈。这就是自监督学习中的一种方式,完形填空。
用的时候会怎么样呢?吴甜分享了百度文心大模型在医疗行业当中的应用。
病案质量控制一直是医院的痛点需求。在医院的病案室,工作人员每天要核对大量病案,对其中病历进行质量抽检。“而在医院中全科医生实际上非常非常少,在病案室工作的医生由于自己专业领域知识的限制,其实无法做到对所有科室的病历都有非常准确的分析和判断。他们每天大概能进行10%的抽样,对非自己专业的部分,很多只能做到匹配字面内容,但难以理解其中深刻语义含义。所以,病案室的非常希望提升工作效率。”吴甜介绍道。
文心大模型的解决办法是,在基础模型上加入医学专业知识、药典、医学大百科等一系列知识,再次训练得到医疗行业相应模型,在应用中,通过进一步针对临床数据的持续学习,掌握经验知识。“最终模型掌握的知识量已经远超出一位医学博士,已经用在病案室的病历质控的工作中,可以100%地进行病历的智能扫描分析,带来了非常大的效率提升。”吴甜介绍道。
百度自2019年开始预训练模型研发,2019年3月,百度发布中国首个正式开放的预训练模型ERNIE1.0;2021年12月,ERNIE 3.0升级为全球首个知识增强千亿大模型鹏城-百度?文心。同时,伴随其中的还有图、文等多模态之间的ERNIE-ViLG跨模态模型以及对话模型PLATO系列。
百度在这一系列进展背后的基本思路是什么?“首先,我们在自己的业务场景中不断地使用、验证、迭代。文心大模型是来源于产业实践,同时服务于产业实践,在实践当中建设起来的大模型。进一步具体理解“产业级”的含义,首先其数据来源于产业,在实际的产业实践当中学习到知识规律。第二,在服务于产业时,不单单只有模型可调用,还有配套的工具和平台,用以帮助使用者更方便地用起来。
文心大模型系列所采取的技术路线是知识增强,将大规模的知识和海量的无结构数据进行融合学习,即以知识指导学习,好处就在于学习效率更高,可解释性更好。通过引入大规模知识图谱,文心大模型系列只用百亿级参数规模就在语言模型权威测评SuperGlue上登顶全球榜首,超越人类水平0.8个百分点。
这样的技术路线,需要解决知识与深度学习结合的难题,以吴甜的话说“目前还有三个难题我们一直在探索”:第一个难点在于可用知识稀疏。“虽然知识特别多,但真正可用的知识是稀疏的,尤其是结构化的知识。所以,怎么用无监督方法自动提炼出可用的知识,这本身就是挺大的难题,这个难题我们一直在找各种各样的可能创新方法去解决。知识源源不断动态产生,第二个难点在于大模型怎样能学了新知识不忘旧知识。”
“第三个难点在于怎样把已结构化表示的知识和数据中的非结构化隐式知识进行统一。百度知识图谱已经有高达5500知识,这么大规模知识,大模型要充分地学习进去,还有不少问题要解。”吴甜继续说道。
据吴甜介绍,“今年是文心大模型产业落地关键年”。目前,文心大模型已大规模应用于百度内部的各类产品,包含搜索、信息流、小度智能屏、百度地图等,显著提升了产品智能化体验。基于文心的开放能力,日调量也超过了五千万次。
目前,文心大模型已通过飞桨开源开放平台、百度智能云等应用于工业、能源、金融、通信、媒体、教育等各行各业,个人、企业开发者数量超6万。在保险领域应用中,文心大模型的智能解析能力,能使文本处理效率提升30倍;在人力资源领域应用中,文心大模型能实现候选人信息智能分类,模型识别准确率达到99%;在医疗领域应用中,文心大模型将每份病历的检查时间,从30分钟缩短到了秒级别。
这一套技术机制大幅度降低了大模型应用的门槛——只要把场景中的问题定义出来,进行一些少量的数据标注,交给大模型再进行一次学习,即可得到适合自己场景的一个好的AI应用。
是挑战也是壁垒:大模型的技术难点
对于投入如此高的文心大模型如何营收,吴甜对澎湃新闻(www.thepaper.cn)表示,“文心大模型一边做技术创新,一边做落地应用,对于百度来说是一项基础性质的工作。它的收益来源于两个方面:一方面是百度自身的业务即需要使用;另外一方面是进一步和行业客户的场景结合,形成对客户的价值。”
这个技术创新过程中充满了挑战。在吴甜看来,大模型训练最主要的挑战是在于“大”——数据量非常大,模型非常大。
大模型的训练需要解决在算力有限的情况下,如何在给定资源上训练,做到高效存储、高效训练计算等,同时要保证模型最后是收敛的、可用的。
在解决如何在有限资源上训练,百度采用4D混合训练技术,在保证精度和收敛性基础上提升训练效率,实现超大规模模型的训练。4D混合训练技术在单机内使用张量模型并行和分组参数切片组合的策略保证低通信成本,在此基础上叠加流水线模型并行策略,实现多台机器共同分担千亿规模模型的训练,最后再叠加数据并行策略来增加并发数量,提升整体训练速度。使用飞桨的混合并行功能,可以灵活的根据拥有的算力的显存大小、通信带宽和节点数量进行灵活的并行策略组合,进行高效的大模型训练。
在百度跟鹏城实验室合作的鹏城-百度·文心大模型的项目里,训练中使用60台服务器作为混合并行的一组单元机器,训练过程中可以采用多组机器来进行并行能力扩展,加速训练进度。
那么怎么判断训练出的大模型好不好?
一个很常见的认知是看参数数量,“参数规模提升确实有更好的效果,我们用文心不同体量的ERNIE模型做过对比,随着参数规模增大,效果提升。”吴甜说道,“但并不是简单的越大越好,更重要的还是模型能力强。”
吴甜认为,评估一个大模型的好坏,更重要的标准在它的效果和泛化能力,是否在面对新问题时能更高效地学出更强的能力。
对于文心大模型的下一步发展,吴甜认为有两个方面,“一方面,技术本身还有创新空间,我们也还在不断研究怎样能让这些模型有更强的能力表现。另一方面,实用性会是我们接下来很关注的问题。以文心举例,文心最开始就是密切关注实用性,从发展历程上可以看到,ERNIE并不以迅速发布一个更大的模型为目标,而是做出一款模型后,在落地应用中检验效果,并在实用过程中调整模型设计。”
在这个实践过程中,百度发现大模型和场景结合时,并不是只要有一个通用大模型就能彻底解决。吴甜表示,“我们一直在通用基础模型的基础上,开展结合了行业中领域数据、知识的大模型研究,即行业大模型。文心全景图里目前已有两个行业大模型,一个是金融,一个是医疗。”
当下,我们正迎来新一轮科技革命和产业变革,每一次产业变革的核心驱动力都是科技创新。吴甜表示,希望通过大模型与国产深度学习框架融合发展,打造自主创新的AI底座,真正发挥大模型驱动AI规模化应用的产业价值。