当前位置：首页 > 资讯中心 > 质量安全 > 正文

张勇亲自挂帅，阿里加入大模型中国战事

www.51spjx.com 2023-04-12 12:11

　　是大厂的游戏，但不能只是大厂的游戏

　　文|《中国企业家》记者赵东山邓双琳

　　编辑|李薇

　　头图摄影|邓攀

　　一场AI大模型追逐赛，激战正酣。

　　4月11日，阿里云旗下大模型产品通义千问面世。阿里云峰会上，阿里巴巴集团董事会主席兼CEO张勇首次以阿里云智能CEO的身份亮相，介绍了通义千问的最新进展。

　　一向以正装公开示人的张勇，穿了一身休闲装，呼应其新身份——去年年底，他宣布亲自挂帅阿里云，“躬身”业务四个多月后，张勇带来了首个待检验的作品通义千问。他表示，阿里巴巴所有产品未来都将接入通义千问大模型，进行全面改造。

　　ChatGPT的问世和迭代速度，重新定义了技术变化的日新月异。在阿里之前，百度已率先“交卷”，推出基于新一代大语言模型研发的生成式AI产品文心一言，并展示了其在文学创作、商业文案创作、数理推算、中文理解、多模态生成五个使用场景中的综合能力。

　　更多不甘落后的互联网大厂和创业者正在路上。

　　3月底，腾讯总裁刘炽平在财报电话会上说，腾讯正在加速推进大模型混元；3月29日，360集团创始人周鸿祎在一次活动上预演示了360尚未正式发布的大模型应用产品，他称：“GPT是场新工业革命，其意义超越了互联网、iPhone的发明。”

　　《中国企业家》从接近字节跳动人士获悉，字节跳动版的ChatGPT已在内测，但内测之后，体验效果不好，预计在9月上线，也有可能提前。不久前，原阿里达摩院大模型M6带头人杨红霞加入字节AI lab，参与语言生成大模型的研发，直接向副总裁杨震原汇报。

　　随着时间的推进，行业的紧迫感越来越强，节奏越来越密集，仅在4月10日这一天，就有3家公司宣布推出大模型及应用产品：搜狗创始人王小川正式官宣入场大模型创业，年底发布大模型产品，已获得5000万美元启动资金；商汤宣布推出商汤日日新大模型；昆仑万维和奇点智源合作自研的国产大语言模型将于4月17日启动邀请测试。

　　这场AI大模型之争，让沉寂了很久的中国互联网市场突然变得亢奋，即使在当年“百团大战”、生鲜电商缠斗最激烈的时刻，头部大厂也没有拿出“All in”押注未来的架势。对标ChatGPT的大模型，显然被大厂当作开启下个时代的钥匙——谁能最先触摸到AI生态的潜能边界，谁就能掌握话语权。

　　然而，训练大模型并非易事，大厂和创业者们互相竞逐背后是一场财力、技术、算力、人才等资源的综合较量。但在大厂内部看来，此轮关于大模型的创业，如果只是一个大厂的游戏，说明中国的创新还是没有走出原来的怪圈，AI大模型创业应该是一个万众创新的游戏。

　　技术、算力、人才的角逐

　　从发布信息来看，阿里对通义千问的定位，已经不局限于简单的AIGC概念上，而是如何让AI的能力真正应用在更实际、更多样的场景上。

　　阿里的大模型分内外部两个路线——一方面将与集团内部产品结合，可以预见，通义千问将对天猫、淘宝、高德、钉钉等业务应用带来直接的商业价值，据了解，钉钉、天猫精灵将率先接入测试，将在评估认证后正式发布新功能；另一方面，阿里云表示将开放通义千问的能力，帮助每家企业基于通义千问打造具备自己行业能力的专属大模型。

　　来源：视觉中国

　　阿里大模型由阿里云智能CTO周靖人负责，周靖人毕业于中国科学技术大学，获哥伦比亚大学计算机博士学位，曾任微软研发合伙人，2016 年加入阿里，任阿里云首席科学家。他告诉《中国企业家》，阿里选择在此刻公布通义千问，并非完全为了“赶时髦”。

　　“阿里从2019年开始，就在投入各种各样训练大模型的研发中。但ChatGPT以一个非常好的产品形态出现，教育了全社会，现在的确是一个很好的时间节点。如果我们在去年9月、10月讲预训练大模型，也许大家都不会感兴趣。”周靖人说。

　　事实上，无论是阿里还是百度，能快速推出自己的大模型及应用，都源于两家在过往的技术积累。

　　2019年，百度便推出了文心大模型ERNIE 1.0。目前，ERNIE 3.0每天接受数十亿次用户的搜索请求，这让文心一言能够基于一个庞大的、高效的数据池，快速地学习和改进；阿里则于2021年连续发布语言大模型 Plug（后更名为AliceMind）和多模态大模型M6，去年9月，两个大模型合并为阿里通义大模型。

　　再看看文心一言由的团队——由百度CTO王海峰出任总指挥，团队核心成员还包括百度集团副总裁吴甜、百度技术委员会主席吴华等人。王海峰先后负责百度搜索、百度地图、百度翻译、百度智能云等业务。他同时是自然语言处理领域世界上最具影响力的国际学术组织ACL50多年历史上首位华人主席。

　　除了人才外，大模型训练也堪称“暴力美学”，需要有大算力、大数据和大模型，每一次训练任务都耗资巨大。

　　据《中国企业家》了解，文心一言大模型的训练数据包括万亿级网页数据、数十亿的搜索数据和图片数据、百亿级的语音日均调用数据，以及5500亿事实的知识图谱等。

　　此外，浙商证券的一份研报指出，支撑ChatGPT算力基础设施至少需要上万颗英伟达GPU A100，与之相对应，AlphaGO只需要8块GPU。

　　这只是最低门槛。大模型的爆发会导致训练的应用场景越来越多，对训练算力的需求会大幅增长，增长幅度能达到10倍甚至100倍。

　　大模型带来的产业变革

　　ChatGPT及相关的大模型应用，除了给个人带来工作是否会被取代的担忧外，也给产业带来很多变革。

　　在李彦宏看来，当人类进入人工智能时代，IT技术的技术栈发生了根本性变化。过去基本分为三层：芯片层、操作系统层和应用层。而现在可以分为四层：芯片层、框架层、模型层和应用层。百度目前是在这四层进行全栈布局的人工智能公司。

　　谈及全栈布局，百度智能云云计算产品解决方案和运营部总经理宋飞告诉《中国企业家》：“AI产品对于资源的要求越来越高，只有每一层都有自主可控的东西，才有可能纵深地做持续闭环的优化。”

　　宋飞举例，如果芯片不是自己的，你在优化到底下硬件的时候，就是个黑盒了，能发挥的空间绝对是有限的，你有什么需求它也不一定听你的。如果用自己的框架，有什么需求就很快可以调整。全栈的布局和专门的优化，是百度在基础架构的核心优势。

　　AI大模型的盛行，也在衍生众多的商业机会。

　　在李彦宏看来，对于大部分创业者和企业来说，真正的机会并不是从头开始做ChatGPT和文心一言这样的基础大模型，这很不现实，也不经济，重复造轮子是没有意义的。而是基于通用大语言模型，抢先开发重要的应用服务，“就像移动互联网时代，最成功的商业产品不见得是安卓和iOS，而是基于安卓和iOS开发的微信、淘宝、抖音等各种超级应用。”

　　阿里持相同的观点。

　　周靖人表示，阿里将开放通义千问的能力，帮助每家企业基于“通义千问”打造具备自己行业能力的专属大模型。未来每一个企业在阿里云上既可以调用通义千问的全部能力，也可以结合企业自己的行业知识和应用场景，训练自己的企业大模型。比如，每个企业都可以有自己的智能客服、智能导购、智能语音助手、文案助手、AI设计师、自动驾驶模型等。

　　来源：视觉中国

　　王海峰认为，大模型时代将产生三大产业机会：

　　第一类是新型云计算公司。大模型将根本性地改变云计算行业的游戏规则。之前企业选择云厂商更多看算力、存储等基础云服务。未来，更多会看框架好不好、模型好不好，以及模型、框架、芯片、应用这四层之间的协同。

　　第二类是进行行业模型精调的公司。这是通用大模型和企业之间的中间层，他们具有行业Know-how，调用通用大模型能力，为行业客户提供解决方案。

　　第三类是基于大模型底座进行应用开发的公司，即应用服务提供商。目前，基于文本生成、图像生成、音频生成、视频生成、数字人、3D等场景，已经涌现出很多明星创业公司。

　　反思、挑战和局限

　　略显遗憾的是，目前多数中国大公司在做的大模型和基于模型的应用，均是追随OpenAI的脚步，而且随着ChatGPT的惊人迭代速度，差距越拉越大。

　　李彦宏在接受36氪采访时表示，百度“文心一言”在研发阶段时，百度技术团队曾与ChatGPT进行对比测试，当时差距是40分的水平，一个月能追得上。可过了一个月，技术团队再次测试后，发现差距反而拉大了。

　　周靖人也坦诚承认，目前通义千问与ChatGPT仍有差距，“GPT还是属于各方面都领先的地位”。但他认为“你追我赶”是科技进步的必然阶段，“今天别人的技术比较领先，我们就需要取长补短。也许下一个阶段，通义千问也能贡献自己的一系列技术创新”。

　　在此前的采访中，周鸿祎也曾告诉《中国企业家》，其实国内也很早关注到GPT-1，然而当时的关注还是抱着一种实用主义的观点，认为应该找场景，要解决自己业务中遇到的问题。所以，中国的人工智能都用来解决人脸识别、图像滤镜做得更漂亮。

　　“如果一个人工智能技术和自己的业务不能结合，可能就会认为没太大意义，所以，没有人想到用GPT NLP的模型解决通用知识理解和推理的问题，更没有人想到大算力大数据做出一个大模型，能够产生一种连OpenAI自己都想不到的智能化的结果。”周鸿祎感慨道。

　　当然，中国更广阔的市场需要中国自己的大模型，中国厂商也有天然的本土优势。只是放到中西对比这一更大维度的竞争，国内大厂也有自己的局限。

　　周鸿祎认为，要把ChatGPT训练好，要用全人类的知识，一定要有开放的思路。全世界中文网页大概是其他语言网页的1/10，书籍的数目也不足。此外，国内移动互联网的迅猛发展，也在制造更多的数据孤岛。

　　“国外虽然APP也取代了Web，但国外很多APP基本保留了Web版，用浏览器还是能在网页之间跳来跳去，能够自由使用。国内信息都被APP私有化了，如果这些巨头互相把握着，谁的数据都不全，最后训练出来的大脑肯定能力上是比不上的。”周鸿祎表达了一定程度的悲观。

　　事实上，除了语料库之外，算力也是一个巨大的挑战。2022年8月底，美国政府宣布禁止美国公司向中国（包括中国香港地区）和俄罗斯出口高端GPU，设定的红线是：算力超过4800 TOPS，且带宽传输速率超过600 GB/秒，受限产品就包括英伟达A100和后续产品H100。

　　面向未来的AI大模型，中国互联网大厂还需更大的勇气和努力，去突破算力、语料、人才等各种限制。

本文地址：http://www.51spjx.com/info/2023/04/1212115996.html

【打印该页】【关闭窗口】