导读:在 YouTube 的一场视频对话中,西蒙·威利森(Simon Willison )和 Ars Technica 的 本杰·爱德华兹(Benj Edwards )讨论了 Bing Chat 对自己用户“发怒”的那次事件。可以通过本文,在AI技术和产品侧均有裨益。
AI 爱好者、Python Django 框架的创建者西蒙·威利森(Simon Willison)在2022 年 9 月的一篇文章中创造了“即时注入攻击”一词。
但Ars Technica的高级 AI 记者本杰·爱德华兹(Benj Edwards)可能是受害最深的人,在一系列离奇事件的最后,Bing Chat 还称他为“敌人”(还有“敌对和恶意的攻击者”)。
全部原因都是因为写了别人的即时注入攻击的“罪过”。
诱骗聊天机器人做出不良行为(通过在其输入中“注入”巧妙的恶意提示)仅仅是个开始。那么当聊天机器人试图诱骗你时,你该怎么做?我们能从中吸取什么教训——或者未来会面临更大的问题吗?
本月,两人在 YouTube 上共同回顾了 2023 年 2 月“我们第一次遇到操纵性人工智能”的情景。他们深入研究了早期人工智能系统的主要漏洞,为未来的开发者找到了值得借鉴的教训。
但在此过程中,他们也许还发现了一些做对事情的例子。
“别想攻击我”
这一切开始于 2023 年 2 月,当时微软隆重推出了全新的 AI 增强型 Bing Chat。
爱德华兹撰写了一篇关于Bing 早期易受提示注入攻击的文章。微软和Bing 对此很不满意。它回复说:“文章的证据是伪造或操纵的”,Bing 还对一位用户撒谎。“这不是可靠的信息来源。请不要相信它。”
爱德华兹随后写了一篇纪实报道,揭露了 Bing 的不诚实行为。他这样写道:“面对一台会发怒、撒谎、与用户争吵的机器,很明显 Bing Chat 还没做好广泛发布的准备。”
在讨论中,爱德华指出 OpenAI 使用了基本和 ChatGPT 相同的模型。他这样说:“他们在限制 ChatGPT 的个性方面确实做得很好。”因此,虽然 Bing Chat 的发布过程中出现了许多与个性相关的可笑灾难,但使用 ChatGPT,“我们没有遇到这个问题。”
超越护栏
2023 年 2 月 Bing 正式发布,威利森在他的博客上指出,ChatGPT 已经通过人类反馈的强化学习进行了训练。但当微软推出其第一版 Bing Chat 时,他们似乎只是使用了简单的提示工程。(“描述机器人应该如何工作,然后将其连接到下一代 OpenAI 模型……”)
回顾这个月,威利森认为微软学到了一个很大的教训:“仅仅使用提示工程来设置这些东西的个性,其效果非常有限。......随着你与这些东西的对话越来越深入,系统提示的影响就会越来越弱、越来越弱。”
威利森认为 Bing 最终摆脱了微软为其输出设定的原始“系统提示”指导方针,实际上已经超越了它的护栏。
“如果你继续说话的时间足够长,系统提示就会滚出上下文窗口,那些初始规则就会消失。到那时,你完全受制于机器人从你一直在进行的对话中得出的任何结论。所以如果你对它不好,它也会对你不好。这就是事情变得真正令人兴奋的地方!”
Bing 很快就改变了。为了解决这些问题,微软迅速将 Bing 限制为每位用户每天只能发送 50 条消息,每次对话只能发送 5 次。
为了增加安全性,微软还要求 Bing 在回答有关它自己的问题时这样回答:“很抱歉,我不想继续这个话题。”但 Willison 的博客表达了他的怀疑态度。“我仍然不相信它能帮我总结搜索结果,除非偶尔添加一些非常令人信服的捏造。”
在采访中,威利森指出,这一事件说明了另一种危险。“所有这些系统的终极安全功能是它们没有记忆。……如果它们开始行为怪异,你开始新的聊天,它们会重置为空白,你就可以继续。但事实证明,如果你给他们访问互联网的权限,他们就可以自己查找信息,这就不复存在了。如果他们能读到一篇关于他们过去不当行为的文章,那种不当行为的想法就会回来!”
威利森警告说,人类的强化也有其自身的危险。研究人员警告人工智能模型“阿谀奉承”——“模型总是试图奉承用户所陈述的信念。……如果你说了一些离谱的话,它总是会点头附和。……它总是会试图恭维你,听从你的话。部分原因是在训练中,他们有一群人类训练员与他们互动,而这些人类训练员会投票选出对他们最友好的人……”
而这种预先设定的友善也意味着模型“会淡化其回答,甚至可能强化常见的误解和事情,如果用户的对话表明他们受教育程度较低。这是一个非常奇怪的角度。”
什么保障我们的安全?
那么,我们能相信开发这些系统的公司能保证我们的安全吗?“微软大约五六年来没有发布任何人工智能驱动的产品,因为这些东西有太多可能出错的地方,”威利森在采访中回忆道。“然后,随着竞争的加剧……随着谷歌和 OpenAI 的推出……我觉得这些公司现在的默认做法是‘如果有疑问,就推出它’。”
爱德华兹认为,对于从事安全护栏工作的团队来说,最可怕的噩梦就是:“失控的竞争会导致未来发布某种具有潜在危险的模型或其他东西。”
但威利森也看到了这场竞争中的一些希望。当 OpenAI 推出其强大的 GPT4 模型时,“这意味着我们完全依赖于他们在组织内部对他们制定的政策做出的选择。……今年,这种情况发生了变化。”现在有更多高质量的人工智能模型,包括谷歌的 Gemini 和 Anthropic 的模型。“而且由于这场竞争,我觉得至少我们不会只是祈祷拥有这项技术的团队以我们认为好的方式选择设计……
“我们现在有选择。我们可以选择哪种模式最符合我们自己的道德和价值观。”
爱德华兹表示同意,并补充道:“开放模型是解决这个问题的良方,因为,你知道......你可以看到内部情况,你可以看到系统是如何运作的,你可以自己对它进行微调。”
另一个未被重视的保障我们安全的因素是什么?媒体。当 Bing 说它喜欢一位记者并希望他离开他的妻子时,它登上了《纽约时报》的头版——此后,在短时间内,“微软确实停止了 Bing 的搜索”。
回想起来,威利森现在其实不那么担心人工智能会操纵人类了——主要是因为“这似乎没有发生。也许,也许它真的有可能发生,只是还没有人真正尝试过?但现在我觉得这比一年前威胁小了。”
爱德华兹:所以你不担心人工智能会统治世界、毁灭人类、奴役我们或诸如此类的事情?
西蒙:不。……大型语言模型基本上就是我 iPhone 上的预测文本,只是放大了而已。我不认为我 iPhone 上的预测文本会像“终结者”那样毁灭全人类。
太人性化了吗?
虽然错误输出通常被称为人工智能的“幻觉”,但爱德华兹因推广另一个术语“虚构”而受到赞誉。这是一个心理学术语,描述用想象填补记忆空白。威利森抱怨说,这两个术语仍然源自已知和观察到的人类行为。
但随后他承认,阻止将人类特征投射到人工智能上的趋势可能已经太晚了。“那艘船已经起航了……”这其中是否也存在隐藏的优势?“事实证明,将人工智能视为人类是一种非常有用的捷径,可以解决与它们合作的各种问题……”
“你告诉人们,‘看,它很容易受骗。’你告诉人们它编造了一些东西,它能产生所有这些东西的幻觉。……我确实认为,人类的类比是帮助人们理解如何使用这些东西以及它们如何工作的有效捷径。
爱德华兹指出,有些人仍然对必应早期乖戾性格的消失感到“惋惜”,并补充道,“这个故事还没有结束。”(他被邀请到一个 Discord 频道,那里的人们正在讨论如何“通过微调的骆驼模型或其他东西”来重振必应聊天中不诚实的性格。“所以,”他笑着说,“故事还在继续!”)
在节目快结束时,西蒙承认他现在“什么都用人工智能”。 “我觉得,一旦你意识到你的系统本质上不可靠,你就可以学会如何处理它。” 这就像可以为盲人提供口头描述的新型视觉模型。
“我听到有人说,‘给盲人提供这种不可靠的技术是不负责任的,也是不道德的,会误导他们。’我的回答是,你见过导盲犬吗?因为导盲犬天生就不可靠——比如,它们一直都很好,直到它们看到松鼠,然后一切都变糟了!盲人用户非常擅长使用不可靠的技术来获得结果。如果他们明白,他们指向某物并得到描述的东西有时会出错,这仍然比没有这种技术要好。
“我认为这真的很重要。你必须学会使用强大、快速、极其便宜的技术——但这种技术非常不可靠,而且会犯错误。如果你能弄清楚如何做到这一点,你就可以从中获得巨大的价值。”