17611538698
webmaster@21cto.com

新的 CriticGPT 推出:让 AI 测试 AI 靠谱吗?

资讯 0 789 2024-08-22 01:11:49


OpenAI 最近宣布推出 CriticGPT,这是一种全新的 AI 模型,它提供对 ChatGPT 响应的“批评”,以帮助训练 GPT 模型的人类更好地评估从人类反馈 (RLFH) 进行强化学习期间的输出。根据 OpenAI 称,CriticGPT 目前并不完美,但它确实可以帮助训练者发现比他们自己发现的更多的问题。

在质量控制步骤中增加更多人工智能真是个好主意吗?以下是与 Coder 首席执行官 Rob Whiteley 谈论了这个想法。 

以下为该对话的编辑与节选版本:

很多人都在用 ChatGPT,我们也听说过各种关于幻觉和各种问题,比如剽窃他人作品而侵犯版权等。因此,OpenAI 明智地做决定,让一个不值得信任的人工智能接受另一个人工智能的检查,而我们现在应该相信这个人工智能会比他们的第一个人工智能更好。那么这对你来说是否太过分了?

Rob Whiteley:我认为从表面上看,我会说这是对的,如果你需要让我给出一个答案,那可能有点过分了。然而,事情变有趣的地方在于你对使用不同参数调整人工智能的舒适程度。我的意思是,是的,从逻辑上讲,如果你有一个人工智能产生不准确的结果,然后你要求它自我检查,那么你就是在移除一个关键的人。我认为我交谈过的绝大多数客户都遵循 80/20 规则。大约 80% 可以由人工智能或 GenAI 工具完成,但最后的 20% 仍然需要人类参与。

因此从表面上看,我担心如果你变得懒惰。好吧,我现在可以将最后 20% 留给系统自行检查,那么我认为我们已经进入了危险的境地。但是,如果说我对这些人工智能工具有什么了解的话,那就是它们的效果完全取决于你给它们的提示,因此,如果你非常明确地说明人工智能工具可以检查或不可以检查的内容 — — 例如,查找编码错误、查找逻辑谬误、查找漏洞、不查找或不产生幻觉、不撒谎、如果你不知道该怎么做,请提示我 — — 有些事情你可以明确地说明,而不是隐晦地说明,这样效果会好得多。 

问题是,你能否访问提示,或者这是后台自我修复的过程?所以对我来说,这实际上归结为,你仍然可以指挥机器执行你的命令,还是它现在只是半自动的,在后台工作?

那么,您认为其中有多少是因为人们急速涌入人工智能领域呢? 

Rob Whiteley:就技术而言,我们确实处于一种典型的炒作泡沫中。我认为,我再次看到,具体来说,我想让我的开发团队使用 Copilot 或一些 GenAI 工具。我认为宣布胜利还为时过早。好吧,“我们现在已经让它可用了。”首先,如果你甚至可以跟踪它的使用情况,而许多公司无法做到,你会看到一个大的峰值。问题是,第二周会怎样?人们还在使用它吗?他们经常使用它吗?他们从中获得了价值吗?你能将它的使用情况与错误或构建时间等结果联系起来吗? 

所以对我来说,我们正处于一个蓄势待发的时刻,我认为很多公司都在蜂拥而至。这有点像 20 年前的云计算,当时它无论如何都是答案。然后,随着公司加入进来,他们意识到,哇,这实际上是昂贵的,或者延迟太糟糕了。但现在我们已经下定决心,所以我们会去做。 

我确实担心公司会加入进来。现在我不是 GenAI 的反对者。它有价值,而且我确实认为它能提高生产力。我只是认为,就像任何技术一样,你必须制定商业案例,提出假设并进行测试,组建一个好的团队,然后根据结果推出它,而不仅仅是打开闸门并抱有希望。

在与你交谈的开发人员中,他们如何看待人工智能。他们是否认为,哇,这是一个真正能帮助我的好工具?还是认为,这会让我丢掉工作?大多数人对此持什么态度?

Rob Whiteley:Coder 是一家软件公司,所以我招聘了很多开发人员,所以我们在内部做了一个调查,结果发现 60% 的人正在使用它并且很满意。大约 20% 的人正在使用它,但已经放弃了,还有 20% 的人还没有选择它。所以我认为首先,对于一项相对较新的技术来说,它已经接近饱和状态。 

对我来说,它的价值是存在的,它的采用率也是存在的,但我认为,有 20% 的人使用了它,然后放弃了它,这让我感到恐惧。为什么?是因为心理原因,比如我不相信它?是因为用户体验的原因?还是因为它在我的开发流程中不起作用?如果我们能达到 80% 的开发人员(我们永远无法达到 100%)的水平,那么如果能让 80% 的开发人员从中获益,我认为可以确定这一点,这已经改变了我们开发代码的方式。我认为我们会达到这个目标,而且会以惊人的速度实现。我只是认为现在还没有达到那个目标。

我认为你提出的关于让人类参与其中的要点很重要,这又回到了最初的前提,即让人工智能检查人工智能。听起来开发人员的角色可能会发生一些变化。正如你所说,有些人正在使用它,也许是为了编写文档之类的事情,而他们仍然在编码。其它人可能会依靠人工智能来生成代码,然后他们将成为人工智能编写代码的审阅者。

一些更高级的用户,无论是我的客户还是自己的公司,在 AI 出现之前,他们都是个人贡献者。现在他们几乎就像团队领导一样,拥有多个编码机器人,他们要求这些机器人执行任务,然后他们照做,几乎就像结对编程,但不是一对一,这几乎是一对多。因此,他们会有一个机器人编写代码,一个机器人编写文档,一个机器人评估代码库,另一个机器人仍在编写代码,但在另一个项目上,因为他们同时签署了两个项目。

所以我确实认为开发人员的技能组合需要改变。我认为需要进行一场软技能革命,让开发人员更加关注沟通、提出需求、检查质量、激励等方面,不管你信不信,研究表明,如果你激励人工智能,它实际上会产生更好的结果。所以我认为会创造一套新的并明确的技能组合——我不喜欢用 十倍速这个词——一个新的、功能更强大的开发人员,我不认为它会是。我是否编写了世界上最好的代码?更重要的是,我能否实现最佳结果,即使我必须领导一个小型虚拟团队来实现它? 


作者:万能的大雄

评论