Deceptive Delight 攻击示例,来源Palo Alto Networks Anthropic 的最新研究更是发现,大语言模型居然学会了「伪装对齐」。 更令人担忧的是大模型在行业领域 ...
这并非科幻电影桥段,而是 AI 安全风险正在文明身边真实上演的缩影。知名 AI 投资人 Rob Toews 在《福布斯》专栏预测,2025 年我们将迎来「第一起 ...
2024 年,AI 大模型在实现跨越式发展的同时,也让我们清晰看到了安全的敏感神经如何被刺激挑动。根据研究,AI 安全风险可以分为三类:内生安全问题、衍生安全问题和外生安全问题。 这并非科幻电影桥段,而是 AI 安全风险正在文明身边真实上演的缩影。知名 ...
2025-01-10 12:52发布于北京机器之心官方账号 这并非科幻电影桥段,而是 AI 安全风险正在文明身边真实上演的缩影。知名 AI 投资人 Rob Toews 在《福布斯》专栏预测,2025 年我们将迎来「第一起真实的 AI 安全事件」。 我们已经开始和另一种智能生命一起生活了 ...