在人工智能技术迅猛发展的当下,国产化适配能力逐渐成为行业竞争的关键因素。IT之家在2月4日报道,中科曙光国家先进计算产业创新中心有限公司正式宣布,海光信息技术团队已成功完成了DeepSeek ...
IT之家 2 月 4 日消息,中科曙光国家先进计算产业创新中心有限公司昨日发文宣布,海光信息技术团队成功完成 DeepSeek V3 和 R1 模型与海光 DCU(深度计算单元)国产化适配,并正式上线。
科技圈从来不缺新闻,但 DeepSeek-R1 的出现,却像一颗石子投入平静的湖面,激起了层层涟漪。这家来自中国的 AI 初创公司,以其开源的推理大模型 R1,正在搅动全球 AI 格局。R1 不仅拥有媲美甚至超越 OpenAI o1 ...
本周,在阿里云通义千问 Qwen 团队提交的一篇论文中,研究人员发现了目前最热门的 MoE(混合专家模型)训练中存在的一个普遍关键问题,并提出一种全新的方法——通过轻量的通信将局部均衡放松为全局均衡,使得 MoE ...
目前领先的 LLM 大都基于 Transformer,而 Transformer 核心的自注意力机制是其计算成本的重要来源。为了优化,研究社区可以说是绞尽脑汁,提出了稀疏 ...
Sakana AI发布了Transformer²新方法,通过奇异值微调和权重自适应策略,提高了LLM的泛化和自适应能力。新方法在文本任务上优于LoRA;即便是从未见过 ...