原子表示对于构建可靠和可转移的机器学习模型至关重要。在此,作者提出了基于变压器的通用原子嵌入来提高晶体性质的预测精度。
本文探讨了人工智能领域的最新模型进展,特别是o1-pro模型带来的突破。文章解释了新模型如何改变工程师与大语言模型交互的方式,提高了模型处理复杂任务的能力。同时介绍了业内专家对这些进展的看法,以及这些变化对AI技术发展的潜在影响。
2024年的诺贝尔奖将人工智能(AI)推到了科学舞台的中央。这不仅是对几位杰出科学家的认可,也是对AI在科学进步中作用的肯定。这些奖项的颁发,标志着AI在科学研究中的重要地位得到了认可,预示着AI正在重塑我们的世界,尤其是在科学探索和创新的范式上掀起 ...
2. DeepSeek 有好口碑的原因在于是第一个把复现 MoE、o1 等发出来,胜在做的早,但能不能做到最好,空间还很大。后面新的挑战在于资源有限,只能把有限的资源放在最亮眼的地方。这个团队的 research 能力、团队文化还是很好的,如果再给 ...
全文共4342字,阅读大约需要7分钟创业九年间,余凯一直为地平线殚精竭虑,调侃自己日渐稀疏的头发,是创业不易最好的见证。2024年10月24日,地平线在港交所上市,市值一度突破660亿港元。这是过去三年来所有中国科技公司赴美国、香港上市过程中,发行与 ...
近日,一篇由澳洲悉尼大学团队牵头完成的论文在 X 上引起关注,该校的博士生孙艺菲(Yifei Sun,音)是论文第一作者。 图 | Yifei Sun(来源:LinkedIn) 基于人类连接组计划的功能性磁共振成像数据,他们使用 Transformer 预测了人脑静息状态(human brain resting ...
71. DeepSeek 更多是 FP8,美国是 FP16,DeepSeek 所有都是基于有限算力工程能力的提升,对于算力高效的使用是最大亮点。上周五 DeepSeek 在北美有巨大的发酵,扎克伯格对 Meta ...
Sakana AI发布了Transformer²新方法,通过奇异值微调和权重自适应策略,提高了LLM的泛化和自适应能力。新方法在文本任务上优于LoRA;即便是从未见过 ...
目前领先的 LLM 大都基于 Transformer,而 Transformer 核心的自注意力机制是其计算成本的重要来源。为了优化,研究社区可以说是绞尽脑汁,提出了稀疏 ...
DeepSeek 以始料未及的速度引发了全球AI社区的狂热:R-1 的讨论还没降温,今天凌晨, DeepSeek 又发布了开源多模态模型 Janus-Pro。2 天前,拾象组织了一场聚焦于 DeepSeek的「Best Ideas 闭门讨论会」,在长达 3 个小时的讨论中,我们和顶尖AI 研究员、AI 开发者和投资人一起围绕 ...