在接受《华尔街日报》采访时,当被问及 OpenAI Sora 模型的基础数据源时,Mira Murati 给出了含糊的回答。
该公司首席技术官 Mira Murati 并不清楚 OpenAI 即将推出的视频生成人工智能模型 Sora 的数据来源。
在 3 月 13 日接受《华尔街日报》采访时,当被问及该公司 Sora 模型的数据来源时,Murati 给出了含糊的回答,该模型能够根据文本指令生成视频。
“我们使用公开数据和许可数据,”Murati 在谈到这家估值 800 亿美元的公司如何训练其即将推出的模型时回答道。
《华尔街日报》的乔安娜·斯特恩 (Joanna Stern) 随后询问 Sora 是否接受过 YouTube、Instagram 或 Facebook 等社交媒体平台的数据训练。 “我实际上对此并不确定,”穆拉蒂回答道,并补充道:
“你知道,如果它们是公开可用的——公开可用。但我不确定。我对此没有信心。”
在转向另一个话题之前,Stern 提到了 OpenAI 与库存图片公司 Shutterstock 的合作关系,询问其数据是否可以用于训练 Sora。 “我只是不打算详细介绍所使用的数据。但它是公开可用或许可的数据,”穆拉蒂补充道。后来,她向《华尔街日报》证实,Sora 使用了 Shutterstock 数据。
AI 模型使用大量数据(称为训练数据集)进行训练,这些数据可帮助模型学习识别模式、进行预测或理解语言。
Murati 自 2018 年以来一直在 OpenAI 工作,领导了该公司一些最受欢迎的项目,包括图像生成器模型 DALL-E 3、语音识别工具 Whisper 以及该公司最新版本的聊天机器人 GPT-4。 2023 年 11 月,在 OpenAI 董事会罢免 Sam Altman 后,她短暂接任临时首席执行官。
OpenAI 已成为多项涉及其人工智能模型训练数据的法律诉讼的目标。 2023 年 7 月,作者 Sarah Silverman、Richard Kadrey 和 Christopher Golden对该公司提起诉讼,指控 ChatGPT 根据受版权保护的内容生成作者作品的摘要。
去年 12 月,《纽约时报》在一项类似的版权侵权诉讼中起诉微软和 OpenAI,指控这些公司使用报纸的内容来训练人工智能聊天机器人。另一项集体诉讼在加利福尼亚州提起,指控 OpenAI 在未经用户同意的情况下从互联网上抓取私人用户信息来训练 ChatGPT。
本文为 @ 场长 创作并授权 21CTO 发布,未经许可,请勿转载。
内容授权事宜请您联系 webmaster@21cto.com或关注 21CTO 公众号。
该文观点仅代表作者本人,21CTO 平台仅提供信息存储空间服务。