Seq2seq模型 - 搜索 News

9 天

理解了多头注意力（Multi-Head ...

11 天

近日，金融界2025年1月25日消息，国家知识产权局官方网站公布，山东新一代信息产业技术研究院有限公司成功取得了一项名为“一种基于seq2seq架构的任务型对话系统和方法”的专利，授权公告号为CN114417889B，申请日期追溯至2022年1月。这一重大突破不仅展示了该公司的研发实力，也为智能对话系统在金融领域的应用开辟了新的可能性。

12 天

北大团队提出Aligner对齐新范式，为GPT-4性能提升开辟新路径

综上所述，Aligner作为一种全新对齐范式，凭借其轻量级、高效、可拓展等特点，不仅提升了GPT-4的性能，还为大语言模型的对齐技术未来的发展开辟了新局面。随着对社会各领域影响的持续展开，Aligner的出现无疑将吸引更多的研究者关注与探索，为人工智 ...

人民网20 天

中国大模型助力AI技术更开放更高效

近日，中国初创企业DeepSeek开发的大语言模型（LLM）DeepSeek-V3引发美欧业界广泛关注，该模型在技术性能、开源模式、成本效益等方面的突出表现获得 ...

IB资讯20 天

Vidu 2.0视频生成大模型上线，10秒内快速“出片”体验升级！

国产AI视频生成平台Vidu近日正式揭晓了其最新研发成果——Vidu 2.0大模型。该平台宣布，Vidu 2.0在视频生成效率上取得了显著突破，能够在10秒内完成一段4秒长、分辨率为512P的视频制作，且针对这一规格，即Vidu 2.0-4s-512模型，每秒钟的视频生成成本仅为4分钱。

站长之家22 天

震撼登场！英伟达开源图像生成模型Sana ，1秒生图、支持中英文和emoji

近日，英伟达开源了一款名为 Sana 的图像生成模型，这一模型仅有0.6亿个参数，极大降低了运行门槛。据了解，Sana 能够生成4096×4096分辨率的图像，并且可以在16GB 的显卡上运行，不到1秒的时间内生成1024×1024分辨率的高质量图片，这一速度在同类模型中表现突出。

51CTO23 天

LLM注意力Attention，Q、K、V矩阵通俗理解

通过区分MHA和MLP两个部分，Transformer模型能够更有效地捕捉输入序列的上下文信息，并学习到更丰富的特征表示，从而在自然语言处理任务中取得优异的性能。 QKV的重要性要理解大语言模型效果的底层实现原理，很大一部分就是理解Transformers Block里面的QKV矩阵。

腾讯网27 天

重磅！微软开源最强小模型Phi-4，超GPT-4o、可商用

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态 ...

36氪27 天

黄仁勋圈重点的世界模型平台是个啥？技术报告全解析，华人贡献 ...

简单来说，Cosmos 是一个世界模型平台，上面有一系列开源、开放权重的视频世界模型，参数量从 4B 到 14B 不等。这些模型的作用非常明确，就是为 ...

IT之家28 天

AI“造物主”：谷歌招兵买马打造“世界模型”模拟真实世界，剑指 AGI

IT之家1 月 8 日消息，科技媒体 The Verge 昨日（1 月 7 日）发布博文，报道称谷歌 DeepMind 正计划组建一支专业团队，全力打造能够模拟真实物理环境的“世界模型”。该项目由前 OpenAI Sora 项目联合负责人 Tim Brooks 领衔，他于今年 10 月加入 DeepMind，负责谷歌的视频 ...

36氪28 天

语言模型到底是什么？

RNN的模型也很难训练和调试。这一年，Mikolov等人做了一些经典工作，推动了RNN的应用。到了2014年，序列到序列学习（seq2seq）出现了。它用LSTM（长 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果