云卷云舒:算力网络+云原生(下):云数据库发展的新篇章-CSDN博客https://blog.csdn.net/bishenghua/article/details/135050556

圈内人都知道,2023 年是向量数据库的元年,最初起源于2023年3月英伟达的黄仁勋在 GTC 大会上提出的这个概念,后续一炮走红,研发潮、投资潮随之而来。

一、向量数据库定义

在传统的关系型数据库中,数据是以表格的形式存储的,而在向量数据库中,数据则是以向量的形式存储的。这种新型的数据库技术,能够更有效地处理和分析大数据,因此在大数据时代中受到了广泛的关注和应用。随着AI 应用的大规模落地普及,数据量得到了暴涨,数据复杂度也大幅提升,数据库需要提高对向量分析和 AI 应用的支持能力。所以向量数据库也是人工智能与数据库结合发展的一个趋势。多模能力(包括向量检索)让应用可以把结构化数据和非结构化数据统一处理,所以说向量数据库也是“数据库一体化”发展的一个体现

二、行业动态

  1. 2023年6月,九章云极 DataCanvas 将 DingoDB 升级为多模向量数据库,并已于去年开源。
  2. 7 月 4 日,腾讯云发布 AI 原生向量数据库。
  3. 11 月 15 日,中国信通院联合腾讯云计算(北京)有限责任公司、中移(苏州)软件技术有限公司、北京枫清科技有限公司(Fabarta)等多家企业共同编制的、国内首个向量数据库标准正式发布。

三、技术场景分析

向量数据库专注于存储和处理向量数据,并提供高效的向量搜索和相似性匹配功能。这种数据库的出现是为了满足越来越多应用场景对于高维度数据和向量计算的需求

各数据库厂商和研究机构都在致力于改进向量数据库的算法和架构,以提高其处理大规模数据的能力。而且,根据黄仁勋的说法,英伟达将推出一个新的 RAFT库,用于加速索引、数据加载和近邻检索,并考虑将 RAFT 的加速引入到Milvus 开源向量数据库和Redis里面。有了巨头们的技术和资金支持,向量数据库的市场空间相信会十分巨大,国内就有机构预估,到 2030 年,全球向量数据库市场规模将达到500 亿美元。

随着大数据和人工智能的快速发展,越来越多的应用和场景需要处理和分析向量数据,差异化的设计优势主要体现在提供向量和关系型数据库的混合检索能力。凭借解决了传统数据库单纯关系型检索的弊端,快速的赢得技术行业和投资高手们的青睐,认为发展前景喜人。

四、两种形态

向量数据库的两种形态:

第一种传统数据库上加上一个向量检索的插件;

第二种独立的企业级向量数据库。

1、声音一:独立演进

行业的调研提及到,更多的是在原来传统数据库上增加了一项向量检索能力,也就是第一种形态。

我们姑且从数据存储方式、数据容量级、查询原理、算力要求四个维度分析,如下图

传统数据库向量数据库
数据存储结构化数据非结构化数据转换为向量存储
数据容量千万级,百万级最佳至少百亿级,甚至千亿
查询原理精准“匹配式”,结果准确近似查询,结果返回多
算力要求理论上偏线性近似计算势必需要大规模算力,属于计算密集型

总结来说,向量数据库的主要特点是能够高效地存储和查询大规模的向量数据,通常基于向量相似度的查询和检索,对于维度越高、信息规模越庞大,效果越好。

2、声音二:插件化演进

当然也有很多人认为,向量数据库会弱化为数据库的向量索引,与数据库集成起来推出服务,主要理由有以下几点:

  • 向量数据库的核心是向量索引,正式索引能力的一种升级而已。
  • 向量数据库,首先得是数据库,同样需要处理数据安全、副本管理、容灾等问题,这些能力对于向量数据库来说,重新配备的成本巨大,有必要吗?
  • 除了大模型之外,大多的业务场景下,需要查询的数据类型肯定是结合的,关系型、非关系型、向量型结合来的,单纯的向量数据库难以单独推出满足大范围推广的需求。

所以,从以上三个角度来看,传统数据库集成向量索引特性,是一个大的趋势,在可以预见的未来更多的产品也将支持插件式向量能力。

五、向量数据库的发展趋势预测

1、正如前面所说,向量数据库的快速发展,不可避免的需要尽快的解决和各类型传统数据库的兼容集成、安全与管理能提升等;

2、在大模型快速发展的今天,强大的市场需求的磨练下,向量数据库势必会不断创新、推陈出新,成熟度会越发完善,同时近似查询的查询原理,在保证算力资源的前提下,不断提升近似坚实的精准性,在算力和效能之间不断平衡。

欢迎投票:

推荐:云卷云舒:AI for DB、DB for AI-CSDN博客