人工智能需要的不仅仅是矢量数据库

场长

人工智能 0 1222 2024-09-07 07:44:21

人工智能数据库是一个多用途平台，能够管理结构化和非结构化数据，并将人工智能模型应用于各种数据格式。

Google Trends数据表明，包括开发者在内的人们对矢量数据库的兴趣正在飙升。

Forrester 在其最新报告《2024 年第二季度矢量数据库概况》中重点介绍了20 多个矢量数据库。

这家媒体还将它们分为两大类：

分别是专门的原生矢量数据库和将矢量存储集成到更广泛的数据生态系统中的多模态数据库。

原生矢量数据库旨在实现最佳规模和性能，而多模态数据库则具有处理多种数据类型的多功能性，从而降低了管理独立系统的复杂性。

向量数据库是一种专门用于存储、管理和查询高维向量的数据库，对于通过语义相似性检索内容的应用程序至关重要。

矢量数据库于 2010 年代后期出现，人们对它的兴趣是由生成式人工智能推动的，因为它们能够实现快速、准确的相似性搜索，而这种搜索对于推荐系统、自然语言处理和图像识别等任务至关重要，从而显著提高了人工智能应用的质量和多功能性。

虽然矢量数据库被认为是生成式人工智能的关键，但矢量本身只是更大难题的一小部分。要在生成式人工智能中获得相关答案，需要依靠机器学习算法提供的强大而全面的搜索功能，这些算法可以检测历史数据中的模式、预测结果、识别异常并推荐操作。

这必须在数十亿个快速变化的数据点上完成，并立即提供结果（<100 毫秒），同时支持大量用户，每秒可能执行数千个查询。虽然有些数据可能是向量，但大多数业务应用程序需要集成和分析非结构化数据（例如 PDF）以及传统的结构化数据来生成向量。

鉴于这种复杂性，仅关注矢量数据库可能会忽略更广阔的视野。根据 Forrester 的说法，您可以选择最佳的矢量数据库，但必须集成必要的组件，例如机器学习、对非矢量数据类型的支持以及性能和高并发性的工作负载管理。或者您可以选择多模式数据库，它至少提供更广泛的数据类型，但需要适应它从未设计为支持的应用程序集。

走进人工智能数据库

一种新型数据库正在兴起：AI 数据库。

AI 数据库是一个多用途平台，除了向量之外，它还管理结构化和非结构化数据。它将 AI 模型应用于各种数据格式，结合信号以获得更准确的输出。AI 数据库通过整合模型和数据类型来提高计算效率并支持可扩展性。它通过在查询结果中聚类相似的向量来组织数据并支持合规性，同时还在表格、文本和向量中搜索特定值、文档匹配和相似性搜索，以使用 AI 模型生成推理。

AI 数据库支持三种主要的 AI 模型类型：近似机器学习 (ML) 的函数、自然语言处理 (NLP) 和生成式 AI。

机器学习模型会在历史数据中寻找模式，以预测趋势、识别异常、对结果进行排名/评分并推荐操作。它们主要选择表格、文本或图像等数据以供进一步使用。
NLP 模型解释并生成文本或语音，用于翻译或情感分析等任务，主要处理文本文件。
生成式人工智能模型根据现有数据生成文本、图像、音频或视频等内容，并预测序列中的下一个元素。

这些模型通常托管在 AI 数据库中并运行，它们会根据收到的数据学习模式、进行推理并创建输出。

AI 数据库代表了一项技术的重大进步，但由于缺乏应用逻辑和运行时管理，它仍然只是部分解决方案。为了满足生成式 AI 苛刻的规模和延迟要求，需要付出大量努力来集成工具并优化运行时性能。

其最有效的方法是无缝结合数据、应用逻辑和大规模执行的平台，提供满足所有这些关键需求的全面解决方案。

Vespa：一个开源 AI 工程平台

Vespa.ai 是一个开源的工程平台，用于开发和运行实时 AI 驱动的应用程序，用于搜索、推荐、个性化和检索增强生成 (RAG)。

Vespa 可以高效地管理数据、推理和逻辑，支持具有大量数据和高并发查询率的应用程序。它以托管服务和开源形式提供。

作者：TIM YOUNG
说明：
作者负责 Vespa.ai 的营销工作，利用他的技术背景实施数据驱动战略。他的职业生涯始于为英国电信、T-Mobile、壳牌、英国航空和福特等企业从事大规模数据管理。
参考：
https://vespa.ai/
https://vespa.ai/developer/

本文为 @ 场长创作并授权 21CTO 发布，未经许可，请勿转载。

内容授权事宜请您联系 webmaster@21cto.com或关注 21CTO 公众号。

该文观点仅代表作者本人，21CTO 平台仅提供信息存储空间服务。