记时代之变迁  立时代之潮流  时代之先声 

锚定AI普惠“新坐标”

来源:人民网 | 作者:人民网 | 发布时间: 2025-02-18 13:36:54 | 30 次浏览 | 分享到:


今年年初,在世界经济论坛2025年年会开幕当天,一款由中国初创企业——杭州深度求索人工智能基础技术研究有限公司(以下简称“DeepSeek”)发布的开源模型DeepSeek—R1惊艳了世界。

 

这一模型在技术上实现了重要突破——用纯深度学习的方法让AI(人工智能)自发涌现出推理能力。高性价比是该模型的优势。据该公司介绍,DeepSeek—R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力,用较低的成本达到了接近于美国开放人工智能研究中心(OpenAI)开发的GPT—o1模型的性能。


不鸣则已,一鸣惊人。DeepSeek的成功,破解了全球人工智能产业长期以来对“堆算力”的路径依赖,引发了人工智能领域的“一场地震”。业界人士认为,DeepSeek模型是“一座里程碑”,有望激发一波创新浪潮,推动全球AI继续进步。

 

近年来,以DeepSeek为代表中国国产大模型正在加快发展步伐。随着产业链条的完善、使用场景的丰富、市场空间的打开和人才储备的拓展,中国国产大模型正在形成从技术到应用,再从应用反哺技术创新的完整闭环。以算力为基,算法为翼,如今,中国国产大模型正通过提质增效的方式锚定AI普惠“新坐标”。

 

创新:“小力创造奇迹”

 

作为一家专注通用人工智能(AGI)的中国科技公司,DeepSeek主攻大模型研发与应用。DeepSeek—R1是其开源的推理模型,擅长处理复杂任务且可免费商用。

DeepSeek—R1模型能做什么呢?

 

它可以直接面向用户或者支持开发者,提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景。DeepSeek—R1支持联网搜索与深度思考模式,同时支持文件上传,能够扫描读取各类文件及图片中的文字内容。

 

如果用一句话总结DeepSeek—R1的技术特点,那便是“小力创造奇迹”。

 

DeepSeek模型既具备基础模型的广泛适应性,又以推理模型的精准性重塑行业标准。DeepSeek的API(软件系统间交互的标准化接口,允许开发者调用其他系统功能而无需理解内部实现细节)价格远低于海外头部大模型,其低成本策略推动了AI技术从“奢侈品”向“日用品”转型。

 

2024年12月底,DeepSeek发布V3模型,其性能与海外头部大模型相近,但训练成本极低,整个训练在2048块英伟达H800 GPU(图形处理器)集群上完成,训练成本550多万美元。相比之下,训练GPT—4o等模型,至少要使用上万块性能更为优越的H100 GPU,训练成本达到约1亿美元。DeepSeek这个土生土长的中国大模型用自己的成功证明:AI大模型的比拼或许并不只靠规模,更重要的是看实际效果。有句话形象地概括出DeepSeek的优势:“不是GPT用不起,而是DeepSeek更有性价比。”

 

更为引人关注的是,DeepSeek在架构效率上的提升幅度。通过算法创新,如GRPO(一种专为优化大型语言模型设计的强化学习算法)优化策略,DeepSeek打破了大模型训练的“算力依赖”。相比海外头部大模型,DeepSeek采用混合专家模型,可将任务拆分给多个专用子模块处理,资源利用率更高,大幅降低了大模型训练所需的算力要求。

 

与海外大模型相比,DeepSeek训练数据以汉语为主,对复杂的汉语词汇和语境处理更为精准,使其文字输出更为流畅自然,符合汉语环境。同时,它的逻辑推导过程透明,并支持针对特定场景的深度优化。

 

不同于先发者的闭源式“护城堡垒”,DeepSeek赢得赞誉的还有它的开源路线。DeepSeek将代码、模型权重和训练日志全部公开,降低了中小企业部署AI的门槛,这一举动不仅需要格局,更需要勇气与实力。

 

“在颠覆性技术面前,闭源形成的护城河是短暂的。即使OpenAI闭源,也无法阻止被别人赶超。”DeepSeek创始人梁文锋这样解释选择开源的原因,“开源、发论文,其实并不会失去什么。对于技术人员来说,被follow(追随模仿)是很有成就感的事。”

 

英国《金融时报》对此评论称,开源模型DeepSeek—R1对全球用户产生极大吸引力,有利于推动人工智能技术的开发和应用。文章说,对于大多数商业用户来说,拥有一款足够可靠并且好用的模型比拥有绝对领先的模型更重要。“并不是每个司机都需要一辆法拉利。像R1这样模型的推理能力进步,可能会为与客户互动或处理工作任务的‘智能体’带来突破性变化”“如果能以更低的成本拥有这些模型,企业的盈利能力将提升”。美国云软件企业赛富时公司的人工智能可持续发展主管鲍里斯·加马扎伊奇科夫认为,DeepSeek推动了人工智能降低能耗的步伐。“它是开源的,其用户不必预先训练一个类似大小的模型,而是可以从已有模型开始(研发),这样可以节省大量能源。对全世界来说,这是一件非常好的事情,我希望看到更多像这样的开源创新。”

   相关新闻