热搜:
乌克兰无人机突袭俄核电站与能源码头,北极合作曙光下暗藏美俄乌“三角杀机”一季度城镇新增就业297万人我国建成5G基站超264万个

快捷

logo

百科

人工智能军备竞赛在国内外持续迭代演进。揭秘OpenAI、何突谷歌、破软瓶颈微软、硬件阿里巴巴等不断推出新应用,科创MCP协议、揭秘AI编程、何突具身智能机器人、破软瓶颈芯片自研等场景多样拓展。硬件自从年初引起全球震动并激发诸多领域AI变革以来,科创DeepSeek的揭秘一举一动都备受关注,但其最新R2模型千呼万唤仍未推出。何突

5月14日,破软瓶颈DeepSeek团队发表最新论文,硬件解释其DeepSeek-V3模型在硬件架构和模型设计方面的科创关键创新,公开大规模训练和推理的降本秘诀,令人瞩目的效率突破是如何做到的,又给业内很大启发。

这篇发表在arXiv平台的论文Insights into DeepSeek-V3:Scaling Challenges and Reflections on Hardware for AI Architectures,DeepSeek创始人兼CEO梁文锋出现在合著名单中。

相较此前的DeepSeek-V3技术报告,本篇论文的重点不在算法,而是从硬件架构和模型设计双重视角出发,探讨了硬件和模型两者如何相互配合,以实现低成本的大规模训练和推理,主要涵盖五方面内容,包括DeepSeek模型的设计原则、低精度驱动设计、以互联为驱动的设计、大规模网络驱动设计、面向未来的硬件架构设计。

论文重点介绍了多头潜在注意力(MLA)以提高内存效率、混合专家(MoE)架构以优化计算与通信权衡、FP8混合精度训练以充分发挥硬件潜力,以及多平面网络拓扑以最小化集群级网络开销等关键创新,还为未来AI硬件与模型协同设计提出了建议。

大模型的迅猛扩张暴露了硬件的架构瓶颈:内存容量不足、计算效率低下、互连带宽受限等。DeepSeek研究团队通过基础设施与算法团队的深度合作,开发了一个适用于MoE模型的FP8混合精度训练框架。在混合精度训练中,模型的权重和激活值可以使用FP8进行计算,而关键的梯度计算和优化步骤则使用更高的精度(如FP32)来保证训练的稳定性,从而在不损失模型性能的前提下,充分发挥硬件的计算能力,加速训练过程,降低训练成本和内存占用。

论文披露了对通信架构的重构。DeepSeek提出多平面双层胖树网络(MPFT),将传统三层网络拓扑压缩为两层,通过8个独立网络平面实现流量隔离和成本下降。这是DeepSeek首次披露超大规模集群的网络优化方案。

他们还提出了未来硬件架构设计的前瞻性方

相关阅读

厦门集美高新企业研发智能设备 助力公交车客车火灾防控

2025-08-25
“中汽客”迅速成长为车辆消防领域的“领头羊”,图为中汽客车间。(刘平摄)海峡网讯 厦门日报 记者 应洁)如何有效防控大型客车、公交车的火情火险,成为行业

未买5万手镯被赶下车?官方立案:处理结果将及时向社会公布

2025-08-25
一家五口云南旅游,因未按照导游要求买手镯被赶下车?2月16日,一游客发视频称,一家五口在春节假期报名参加了云南旅游团,期间在丽江旅途中因未购买5万元的手镯而与导游产生纠纷,随后提前结束行程。2月17日

2月19日(明晚)油价调整最新消息:92/95号汽油价格或将不变

2025-08-25
今天2月18日)是新一轮油价调整的第9个工作日2月19日24时调整),目前预计下调油价5元/吨,相比上个工作日预计跌幅减少80元/吨,尚未超过下调红线,油价呈搁浅状态。调整周期即将来到尾声,明晚就将迎

日本东京股市两大股指2月14日回落

2025-08-25
新华社东京2月14日电记者欧阳迪娜刘春燕)日本东京股市两大股指14日回落。日经225种股票平均价格指数收盘下跌0.69%,东京证券交易所股票价格指数下跌1.05%。美国消费者价格指数CPI)1月超预期

美餐饮企业重推“衰退特惠”,凸显消费者信心恶化

2025-08-25
汇通财经APP讯——随着对经济放缓的担忧潜伏在幕后,一些企业开始注意到这一点,并推出了所谓的“衰退特惠”。在谷歌的搜索引擎上搜索“衰退特惠”,结果列表将包括近20年前大衰退的条目。看看2008年《Gr

别墅门口台阶设计效果图大全

2025-08-25
别墅门口台阶设计效果图大全在别墅门口的设计中,台阶是一个非常重要的元素。它不仅可以提供方便的上下楼通道,还可以增加别墅的美感和豪华感。本文将为您介绍一些别墅门口台阶设计的效果图,帮助您更好地了解和选择

今日辟谣(2024年3月19日)

2025-08-25
2024年3月19日  谣言:重庆南坪商业大楼火灾伤亡惨重?  真相:近日,网传消息称“重庆南坪商业大楼突发大火,伤亡惨重”,宣称火灾“造成4人死亡、多人受伤”。另有网民发布经AI生成且图文严重不符的

3月份工业企业营收由降转增

2025-08-25
ze: 14px; line-height: 28px;">经济日报北京4月27日讯记者熊丽)国家统计局发布数据显示,3月份,受宏观经济运行向好、市场需求恢复带动,全国规模以上工业企业营业收入同比增长

中國製造業衰退中,PMI跌破50|天下雜誌

2025-08-25
高盛將中國第三季經濟成長預測調降至0,中國製造業真的這麼慘嗎?您的閱讀篇數已達上限立刻訂閱全閱讀,即可享全站不限篇數閱讀

用共享充电宝一年花了1200元 美团充电宝就花了840元

2025-08-25
你有出门自带充电宝的习惯吗,如果有那你其实节省了不少费用。近日有网友复盘过去的一年,结果发现在共享充电宝上一年花了1200元,确实被这种话费给吓到了。1200元是个什么概念?这位网友的B站会员费、视频

IMF总裁警告全球经济碎片化代价巨大

2025-08-25
新华社华盛顿1月2日电记者熊茂伶)国际货币基金组织IMF)总裁格奥尔基耶娃警告,全球经济碎片化可能导致全球国内生产总值GDP)损失7%。格奥尔基耶娃在美国有线电视新闻网CNN)2日播出的一档节目中表示

专家说上班第一天少干活 应循序渐进避免复工出现失误

2025-08-25
【专家说上班第一天少干活儿】今天是节后上班第一天,很多人还没有从热闹的新年中走出来,就要投身于工作中,有的人难免会出现「节后综合征」,提不起精神、烦躁、不想上班等情绪不断涌现。专家建议节后刚开始工作,

执法队员进行突击检查 6尾中华鲎从餐馆回归大海

2025-08-25
检查行动中查获的中华鲎。市海洋综合行政执法支队加强水生野生保护动物检查、宣传工作海峡网讯(海西晨报记者郭钦转通讯员叶小平)近日,市海洋综合行政执法支队在一次水生野生保护动物的检查、宣传行动中,查获了中

农发行安排1100亿元信贷资金全力支持夏粮收购

2025-08-25
ze: 14px; line-height: 28px;">新华社北京6月6日电 记者 郁琼源 侯雪静) 记者6日从中国农业发展银行获悉,目前,农发行已安排1100亿元信贷资金用于夏粮收购。截至6月5

4月人民币贷款增加7188亿元

2025-08-25
ze: 14px; line-height: 28px;">新华社北京5月11日电记者 吴雨)中国人民银行11日发布的金融统计数据显示,4月份我国人民币贷款增加7188亿元,同比多增649亿元。央行的

四月全社会用电量增速超百分之八

2025-08-25
ze: 14px; line-height: 28px;">本报北京5月16日电 记者丁怡婷)记者从国家能源局获悉:4月份,全社会用电量6901亿千瓦时,同比增长8.3%。分产业看,第一产业用电量88

只能轻轻放过?破解少年犯罪的司法困境

2025-08-25
湖州市南浔区人民检察院对3名罪错未成年人开展训诫教育。受访者供图/图)“这事儿归根到底就是我倒霉,谁让我年龄比他们大呢?”2019年8月,在办理一起聚众斗殴案时,一名16岁的犯罪嫌疑人的话让浙江湖州南

一季度软件业务收入增长13.5%

2025-08-25
ze: 14px; line-height: 28px;">《 人民日报 》 2023年06月07日 第 03 版)本报北京6月6日电 记者王政)工信部近日发布的统计数据显示:一季度,我国软件和信息技

4月份全国完成营业性客运量7.8亿人

2025-08-25
ze: 14px; line-height: 28px;">经济日报北京5月30日讯记者齐慧)据交通运输部消息,4月份,全国完成营业性客运量7.8亿人,同比增长141.1%。交通运输主要指标延续回升向

5月末外汇储备31765亿美元

2025-08-25
ze: 14px; line-height: 28px;">新华社北京6月7日电记者 刘开雄)国家外汇管理局7日发布数据显示,截至2023年5月末,我国外汇储备规模为31765亿美元,较4月末下降28
小编推荐
猜你喜欢
如果觉得快捷不错,还请把快捷分享到你的微信好友、朋友圈、微博等,万分叩谢
「**」初来乍到网为你提供,,,,等 http://m.txvngeneration.xyz/
点我复制链接

俺也是有底线滴

© 2023 初来乍到网 版权所有
为你提供,,,,等 http://m.txvngeneration.xyz/