【文/熊超然观察网】1月12日晚,中国人工智能(AI)初创公司DeepSeek创始人梁文峰与北京大学研究人员联合发表白皮书,提出一种新的模型训练技术。他们表示,该技术通过规避图形处理单元(GPU)的内存限制来实现“积极的参数缩放”。香港《南华早报》1 月 13 日报道称,此举凸显了 DeepSeek 继续致力于最大化成本效率,尽管其计算能力与美国行业领先者存在差距。同时,据猜测该公司将在今年春节前推出一款重磅新车型。据报道,这份技术性很强的文件将受到中国和美国两国有兴趣了解 DeepSeek 最新进展的行业参与者的广泛关注。过去一年,DeepSeek已成为创新的灯塔中国人工智能领域的发展。 DeepSeek与北京大学研究人员合作发表了这篇论文,梁文峰的名字出现在论文截图中。最新的论文题为“使用可扩展搜索的条件记忆:大型语言模型的新稀疏轴”,据称介绍了一种称为“Engram”(记忆追踪)的“条件记忆”技术。该技术用于解决扩展AI模型的主要瓶颈:GPU高带宽内存(HBM)的容量限制。现有的大规模语言模型(LLM)使用计算来获取基本信息,这个过程需要大量的计算能力。但研究人员表示,这种方法浪费了宝贵的“连续深度”,而这些深度本来可以分配给琐碎的操作以进行更高层次的推理。 《南华早报》、HBM和IAS指出,这是中美在硬件方面最大的差距之一。 Ray Wang,半分析公司分析师,韩国一家半导体行业分析机构表示,虽然中国存储芯片巨头长鑫存储(CXMT)近年来稳步前进,但仍落后韩国三星电子、SK海力士、美国美光科技等行业龙头几年。 DeepSeek和北京大学的研究人员在论文中表示,通过将计算和存储“分离”,Engram模型可以更高效地“搜索”这些基础信息。他们提到的新技术还可以提高模型在处理长上下文(即较长的 adas 之间)时的效率。这是将人工智能聊天机器人转变为现实世界中有用的人工智能代理的最大挑战之一。研究人员致力于一个包含 270 亿个参数的项目。该技术在模型中进行了验证,发现可以将关键行业基准的性能提高几个百分点。这很重要,因为它允许模型进行比较需要更多计算工作的 lex 推论。他们写道:“我们相信条件记忆将成为下一代稀疏模型中必不可少的建模原语。”研究人员将印迹的潜在影响与他们开发的“专家混合”(MoE)技术进行了比较。此后,其他中国竞争对手也采用了该技术,该技术可以在不增加计算复杂性的情况下增加模型大小。 DeepSeek创始人梁文峰视频截图。如今,在 dYes 中,业界最大的模型拥有数万亿个参数。开源开发平台 Hugging Face 的研究工程师 Elie Bakush 在社交媒体上称赞了这篇论文,称“我们正在推理和训练过程中在硬件中验证这项技术。”据报道,该论文有 14 名共同作者。除了梁文峰之外,还包括北京大学王选计算机科学研究所助理教授、Micros前首席科学家张惠水。经常研究亚洲。去年年初,DeepSeek 宣布 NVIDIA H 发布了 DeepSeek-R1,这是一个使用拥有 800 个 GPU 的数据中心训练的大型模型。培训仅用了两个月就完成了,花费了 550 万美元,只是 OpenAI 等美国公司花费的一小部分。然而,它取得的结果可与美国最好的人工智能模型相媲美。此举震惊了业界,并引起了多国尤其是美国的关注。据英国《金融时报》报道,当地时间1月12日,微软首席执行官布拉德·史密斯警告称,美国人工智能公司在争夺西方世界以外的用户方面正在被中国竞争对手超越,而中国低成本的“开源”模式是一大优势。他表示,中国人工智能初创公司 DeepSeek 的技术在非洲等新兴市场的迅速采用凸显了美国公司在全球面临的竞争。 “我们必须认识到,与一年前不同,中国现在拥有一个而且越来越有竞争力的国家报告称,史密斯发表此番言论之际,微软的一项新研究发现,一年前发布的 DeepSeek R1 大规模语言模型由于其“易用性和低成本”,将有助于加速人工智能在世界各地的普及,特别是在南半球国家。这也使得中国在开发者可以自由使用、修改和集成的“开源”人工智能模型的全球市场份额上超过了美国。《南华早报》指出值此 Deep Seek R1 模型推出一周年之际,人们对即将推出的一款重大新模型寄予厚望 硅谷创业科技风口 The Information 当地时间 1 月 9 日报道称,DeepSeek 计划于今年 2 月中旬推出具有强大编程功能的新 V4 模型。本文为观察者网独家稿件,未经许可不得转载。
特别提示:以上c内容(包括图片和视频,如有)已由d平台用户上传并发布。e自己的意思是“网易帐户”。它将被开通。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。