OpenAI 的 Mira Murati “不确定”Sora 的训练数据来自哪里

场长

人工智能 0 1009 2024-03-19 08:30:37

在接受《华尔街日报》采访时，当被问及 OpenAI Sora 模型的基础数据源时，Mira Murati 给出了含糊的回答。

该公司首席技术官 Mira Murati 并不清楚 OpenAI 即将推出的视频生成人工智能模型 Sora 的数据来源。

在 3 月 13 日接受《华尔街日报》采访时，当被问及该公司 Sora 模型的数据来源时，Murati 给出了含糊的回答，该模型能够根据文本指令生成视频。

“我们使用公开数据和许可数据，”Murati 在谈到这家估值 800 亿美元的公司如何训练其即将推出的模型时回答道。

《华尔街日报》的乔安娜·斯特恩 (Joanna Stern) 随后询问 Sora 是否接受过 YouTube、Instagram 或 Facebook 等社交媒体平台的数据训练。 “我实际上对此并不确定，”穆拉蒂回答道，并补充道：

“你知道，如果它们是公开可用的——公开可用。但我不确定。我对此没有信心。”

在转向另一个话题之前，Stern 提到了 OpenAI 与库存图片公司 Shutterstock 的合作关系，询问其数据是否可以用于训练 Sora。 “我只是不打算详细介绍所使用的数据。但它是公开可用或许可的数据，”穆拉蒂补充道。后来，她向《华尔街日报》证实，Sora 使用了 Shutterstock 数据。

AI 模型使用大量数据（称为训练数据集）进行训练，这些数据可帮助模型学习识别模式、进行预测或理解语言。

*OpenAI 首席技术官 Mira Murati 接受《华尔街日报》采访。资料来源：华尔街日报*

Murati 自 2018 年以来一直在 OpenAI 工作，领导了该公司一些最受欢迎的项目，包括图像生成器模型 DALL-E 3、语音识别工具 Whisper 以及该公司最新版本的聊天机器人 GPT-4。 2023 年 11 月，在 OpenAI 董事会罢免 Sam Altman 后，她短暂接任临时首席执行官。

OpenAI 已成为多项涉及其人工智能模型训练数据的法律诉讼的目标。 2023 年 7 月，作者 Sarah Silverman、Richard Kadrey 和 Christopher Golden对该公司提起诉讼，指控 ChatGPT 根据受版权保护的内容生成作者作品的摘要。

去年 12 月，《纽约时报》在一项类似的版权侵权诉讼中起诉微软和 OpenAI，指控这些公司使用报纸的内容来训练人工智能聊天机器人。另一项集体诉讼在加利福尼亚州提起，指控 OpenAI 在未经用户同意的情况下从互联网上抓取私人用户信息来训练 ChatGPT。

本文为 @ 场长创作并授权 21CTO 发布，未经许可，请勿转载。

内容授权事宜请您联系 webmaster@21cto.com或关注 21CTO 公众号。

该文观点仅代表作者本人，21CTO 平台仅提供信息存储空间服务。