首页 > 信息 > IT科技 > 正文
2023-07-08 08:36

阿里云大模型的「阳谋」:全面发展不偏科,一力降十会

阿里云的「通义大模型家族」,加入了新的成员。

7 月 7 日,上海 WAIC 世界人工智能大会期间,阿里云公布了新的 AI 绘画创作大模型通义万相,将大模型的模态从文本和语音延伸到图像,逐步向多模态模型靠近。

阿里云在会上介绍,通义万相拥有文生图和图生图能力,可辅助人类进行图片创作,大幅降低图片设计门槛,可应用于艺术设计、游戏和文创等应用场景,目前已开启定向邀测。该模型首批上线的功能具体包括以下三种:

文本生成图像。输入文字描述画面并选定创作风格(水彩、油画、中国画、二次元等),AI 即可自动生成创作图片。

相似图生成。提供一张参考图像,可获取内容、风格相似的 AI 画作。

风格迁移。上传原图和风格图,可自动把原图处理为指定的风格图。

 阿里云大模型的「阳谋」:全面发展不偏科,一力降十会

输入一段提示词,通义万相生成的 AI 创作图片

时至今日,大模型将重塑软件服务行业已经成为行业共识。作为国内最大的云服务厂商,过去一段时间阿里云不断加大这一领域的技术和产品研发投入,阿里巴巴集团董事局主席、首席执行官张勇甚至亲自挂帅,担任阿里云智能集团的 CEO。

正如张勇在接受采访时所说,所有行业、所有应用、所有软件、所有服务,都值得基于新型人工智能技术、基于 AIGC 各方面技术支撑、大模型支撑重做一遍,这一定不仅能带来创新性的客户体验、客户服务的满足,也会让我们的生产范式、工作范式、生活范式发生很多变化。

从阿里云首次公开基础大模型通义千问,已经过去三个月的时间,阿里云自研大模型的布局,也已初见端倪。

苦练内功多年,通义大模型家族开花结果

无论是 Transformer 还是 Diffusion,都为大模型的研发奠定了基础。两大主流框架的问世让大模型研发的门槛大幅降低,但在这之上的创新则是研发出差异化竞争优势大模型的关键。

根据阿里云介绍,通义万相是阿里在大模型领域苦练内功多年的产物,其基于阿里研发的组合式生成模型 Composer,后者是一种基于扩散模型的「组合式生成」框架,这一引领性的成果早在今年 2 月相就已发表,并吸引了国内外行业内人士的广泛关注。

 阿里云大模型的「阳谋」:全面发展不偏科,一力降十会

其基本原理是:先将图像拆解成不同设计元素(配色、草图、布局、风格、语义、材质等),再使用 AI 模型将这些元素重新组合,中间使用的元素可以自由编辑。假设有 100 张图片,每张图片拆成 8 种元素,则全部元素的组合方式有 100 的 8 次方种之多,这被阿里云称为「组合爆炸」,可以给人类设计师生成图片提供极大的自由度和想象空间。

加上此前已经推出大语言模型「通义千问」和聚焦音频的大模型应用产品「通义听悟」,三个月的时间,阿里已经推出三个不同的大模型和产品,模态也已经从对话、文本等文字处理,延伸至音频、图像领域。

 阿里云大模型的「阳谋」:全面发展不偏科,一力降十会

短时间内在产品层面取得进展的背后,是阿里在 NLP、计算机视觉等前沿科研领域多年的布局的结果。

极客公园梳理了阿里大模型的发展脉络。如下图所示,阿里最早于 2018 年底启动大模型研发,在 2022 年的 AIGC 热潮到来之前,阿里已经在超大模型、语言及多模态能力、低碳训练、平台化服务、落地应用等多个方面,做出了一定的投入和尝试。

 阿里云大模型的「阳谋」:全面发展不偏科,一力降十会

阿里大模型发展时间线丨制作:极客公园

2022 年四季度,ChatGPT 发布后很快掀起了新的一轮 AI 热潮,阿里也加快了行动步伐,加速将实验室里的技术产品化,推入市场。

2023 年 4 月 7 日,阿里云正式推出大语言模型「通义千问」,该模型能够响应人类以自然语言方式提出的各类指令,拥有回答问题、创作文字、编写代码等能力。两个月后,阿里云上线了音视频 AI 产品「通义听悟」,后者是接入了通义千问大模型能力的应用产品,用户可以随时随地高效完成对音视频内容的转写、检索、摘要和整理,比如用大模型自动做笔记、整理访谈、提取 PPT 等。

研发基础大模型能力和开发产品的同时,阿里云也在加快生态的建设。阿里云透露,通义千问问世后不到三个月,目前已有 30 万企业用户申请接入,电力、通信、交通、金融、企服等多个行业的数字服务商,也成为通义千问的首批合作伙伴。

而随着新的模型和产品陆续发布,阿里云大模型的使用场景和覆盖行业也在进一步拓展。通义听悟提供的音频内容撰写、检索、摘要、整理功能,拓展了大模型在企业会议、访谈等场景的使用;而通义万相的文生图和图生图能力,补齐了阿里云大模型的关键拼图,未来可用于电商、艺术设计、游戏等更广泛的文创场景。

放眼全球,这样的全面布局也仅有寥寥数家。

百模之争,阿里云软硬兼修稳坐第一梯队

客观来说,不论是今天发布的通义万相,还是更早的通义千问、通义听悟,阿里云的这些大模型产品本身不是科技产业的新物种。在海外,此前已经有 Whisper、ChatGPT、Midjourney 等功能相近的大模型和应用产品。

国内在大模型领域起步较晚,过去几个月,国内科技公司、创业团队纷纷卷入这一赛道,仅仅上海世界人工智能大会几天,就有数十个大模型亮相,百模之争的盛况愈演愈烈,但现实仍然很骨感,目前在市面上能打的模型仍然寥寥可数,今天不论是基础的大模型能力,还是基于大模型的基础应用产品,全行业仍在极力追赶。

想要在这一领域实现赶超,不论是研发大模型还是开发优秀的应用,都不是「抄作业」这么简单。比如大模型的研发,就不仅仅是靠算法,或者靠财力简单堆 GPU 就能实现,这是囊括了底层算力、网络、存储、大数据、AI 框架、AI 模型等复杂技术的系统性工程,需要 AI- 云计算的全栈技术能力。

而想要打造 ChatGPT 这样的杀手级应用,也不只是有个好的大模型就能解决所有问题。OpenAI 是通过数年努力,构建起了一条从上游数据、大模型,到产品、生态的完整产业链条。不论是在国内还是国外,发展大模型都需要对技术、产品和生态的全方位投入。

阿里云大模型战略的决策者,显然意识到了这个问题。过去数月,阿里云并没有尝试去打造一个博眼球的、与海外同行差异化的所谓「杀手级产品」。而是全方位地投入技术、算力,打磨算法和基础产品,发展技术和行业生态。「全面发展不偏科」,也将是接下来一段时间,阿里云在大模型领域坚持的基础战略。

这样的做法不可谓不「奢侈」。而能做到这一点,是因为阿里是全球少数在这几个领域都有深度布局、长久积累的科技公司之一。

AI 算法方面,阿里达摩院是国内最早启动大模型研究的机构之一。2018 年底便开始投入大模型研发,在中文大模型领域一直处于引领地位,2021 年阿里先后发布国内首个超百亿参数的多模态大模型及语言大模型,此后还训练实现了全球首个 10 万亿参数 AI 模型。2022 年,达摩院推出集大成的通义大模型,在语言及多模态能力、超大模型、通用统一模型等多个技术维度上,处于国内第一梯队。

在构建自身技术地基的同时,阿里也早早嗅到了 AI 生态的机遇,最早提出 MaaS 概念(模型即服务),并牵头建设了国内规模最大的 AI 模型服务社区 " 魔搭 ",联动澜舟科技、深势科技、智谱 AI 等机构开源开放 AI 模型,帮助中小企业和开发者降低模型使用门槛,推动 AI 普惠。

 阿里云大模型的「阳谋」:全面发展不偏科,一力降十会

当然在各类大模型遍地开花的背后,算力同样取到了决定性作用。不夸张地说,彻底引爆大模型的 ChatGPT 没有微软 Azure 强大的算力支撑,这一轮大模型的浪潮恐怕至少要往后推迟几年。

而在这项关键指标中,阿里云也是全球最领先的玩家之一,作为亚太第一、全球第三的云计算服务商,阿里云拥有国内最强的智能算力储备,可以源源不断地为大模型研发输血。根据官方的信息显示,阿里云的智算集群可支持最大十万卡 GPU 规模,承载多个万亿参数大模型同时在线训练。基于飞天智算的阿里云深度学习平台 PAI,可将计算资源利用率提高 3 倍以上,AI 训练效率提升 11 倍,推理效率提升 6 倍,深度支持了通义大模型的研发。

强大的云基础设施能力、深厚的大模型技术积淀,对大模型的研发来说缺一不可。多年的技术积累,是阿里参与本轮 AI 技术浪潮、持续开展技术长跑的重要保障。

显然,阿里决心已定,一次新的长跑已经开启。