Transformer Machine Learning

原子表示对于构建可靠和可转移的机器学习模型至关重要。在此，作者提出了基于变压器的通用原子嵌入来提高晶体性质的预测精度。

来自MSN9 天

本文探讨了人工智能领域的最新模型进展，特别是o1-pro模型带来的突破。文章解释了新模型如何改变工程师与大语言模型交互的方式，提高了模型处理复杂任务的能力。同时介绍了业内专家对这些进展的看法，以及这些变化对AI技术发展的潜在影响。

2024年的诺贝尔奖将人工智能(AI)推到了科学舞台的中央。这不仅是对几位杰出科学家的认可，也是对AI在科学进步中作用的肯定。这些奖项的颁发，标志着AI在科学研究中的重要地位得到了认可，预示着AI正在重塑我们的世界，尤其是在科学探索和创新的范式上掀起 ...

5 天

一场关于 DeepSeek 的高质量闭门会：比技术更重要的是愿景

2. DeepSeek 有好口碑的原因在于是第一个把复现 MoE、o1 等发出来，胜在做的早，但能不能做到最好，空间还很大。后面新的挑战在于资源有限，只能把有限的资源放在最亮眼的地方。这个团队的 research 能力、团队文化还是很好的，如果再给 ...

腾讯网1 天

余凯，撑起了600亿IPO

全文共4342字，阅读大约需要7分钟创业九年间，余凯一直为地平线殚精竭虑，调侃自己日渐稀疏的头发，是创业不易最好的见证。2024年10月24日，地平线在港交所上市，市值一度突破660亿港元。这是过去三年来所有中国科技公司赴美国、香港上市过程中，发行与 ...

来自MSN16 天

悉尼大学提出新Transformer架构，单时间点预测均方误差为0.0013

近日，一篇由澳洲悉尼大学团队牵头完成的论文在 X 上引起关注，该校的博士生孙艺菲（Yifei Sun，音）是论文第一作者。图 | Yifei Sun（来源：LinkedIn）基于人类连接组计划的功能性磁共振成像数据，他们使用 Transformer 预测了人脑静息状态（human brain resting ...

2 天

DeepSeek的86条高质量思考

71. DeepSeek 更多是 FP8，美国是 FP16，DeepSeek 所有都是基于有限算力工程能力的提升，对于算力高效的使用是最大亮点。上周五 DeepSeek 在北美有巨大的发酵，扎克伯格对 Meta ...

36氪20 天

Transformer作者初创重磅发布Transformer²，AI模型活了，动态调整自己权重

Sakana AI发布了Transformer²新方法，通过奇异值微调和权重自适应策略，提高了LLM的泛化和自适应能力。新方法在文本任务上优于LoRA；即便是从未见过 ...

36氪20 天

MiniMax震撼开源，突破传统Transformer架构，4560亿参数，支持400万长上下文

目前领先的 LLM 大都基于 Transformer，而 Transformer 核心的自注意力机制是其计算成本的重要来源。为了优化，研究社区可以说是绞尽脑汁，提出了稀疏 ...

腾讯网7 天

86 条 DeepSeek 的关键思考｜Best Ideas 开源

DeepSeek 以始料未及的速度引发了全球AI社区的狂热：R-1 的讨论还没降温，今天凌晨， DeepSeek 又发布了开源多模态模型 Janus-Pro。2 天前，拾象组织了一场聚焦于 DeepSeek的「Best Ideas 闭门讨论会」，在长达 3 个小时的讨论中，我们和顶尖AI 研究员、AI 开发者和投资人一起围绕 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果