Auxiliary Transformer

1 天

在人工智能技术迅猛发展的当下，国产化适配能力逐渐成为行业竞争的关键因素。IT之家在2月4日报道，中科曙光国家先进计算产业创新中心有限公司正式宣布，海光信息技术团队已成功完成了DeepSeek ...

1 天

IT之家 2 月 4 日消息，中科曙光国家先进计算产业创新中心有限公司昨日发文宣布，海光信息技术团队成功完成 DeepSeek V3 和 R1 模型与海光 DCU（深度计算单元）国产化适配，并正式上线。

2 天

科技圈从来不缺新闻，但 DeepSeek-R1 的出现，却像一颗石子投入平静的湖面，激起了层层涟漪。这家来自中国的 AI 初创公司，以其开源的推理大模型 R1，正在搅动全球 AI 格局。R1 不仅拥有媲美甚至超越 OpenAI o1 ...

12 天

本周，在阿里云通义千问 Qwen 团队提交的一篇论文中，研究人员发现了目前最热门的 MoE（混合专家模型）训练中存在的一个普遍关键问题，并提出一种全新的方法——通过轻量的通信将局部均衡放松为全局均衡，使得 MoE ...

36氪21 天

目前领先的 LLM 大都基于 Transformer，而 Transformer 核心的自注意力机制是其计算成本的重要来源。为了优化，研究社区可以说是绞尽脑汁，提出了稀疏 ...

36氪20 天

Sakana AI发布了Transformer²新方法，通过奇异值微调和权重自适应策略，提高了LLM的泛化和自适应能力。新方法在文本任务上优于LoRA；即便是从未见过 ...

一些您可能无法访问的结果已被隐去。