AI语言大模型引发的大模型浪潮,催生了数据存储、检索需求。传统关系型数据库难以处理大规模数据、低时延高并发查询、模糊匹配等需求,但向量数据库能够有效解决这些痛点,因此受到业界青睐。今年5月前后的一个月内,全球有4家向量数据库创业公司获得新融资,国内的相关概念股股价纷纷上涨。
“如果你看好AI,那你就可以看好向量数据库。”7月4日,腾讯云正式发布AI原生(AI Native)向量数据库,腾讯云数据库副总经理罗云在会后接受采访如是表示。罗云认为,向量数据库是大模型和企业数据之间的桥梁,可以打破大模型训练的时空限制,能够被广泛应用于大模型的训练、推理和知识库补充等场景。
据相关统计显示,将腾讯云向量数据库用于大模型预训练数据的分类、去重和清洗相比传统方式可以实现10倍效率的提升,如果将向量数据库作为外部知识库用于模型推理,则可以将成本降低2-4个数量级。腾讯云推出向量数据库的背后,是大模型训练对数据的强大需求。罗云表示:“随着大模型的成熟,未来我们可能不再需要雇佣那么多资深的软硬件工程师,企业或许能够更好地享受到大模型抹平技术差异带来的红利。因此,我们认为企业和企业之间在未来很长的一段时间的竞争会在数据上,谁能够更好地利用数据,谁能够更好地把数据沉淀到自己的工程里面,更好地让数据接入到大模型和整个AI体系,谁可能就会赢在将来。”
一边是概念火热和需求高涨,一边是商业化进程有待成熟。赛道目前处于群雄并起的阶段,从融资、技术的角度上来讲,目前尚未有寡头角色出现。而对于腾讯而言,腾讯云向量数据库目前已在腾讯内部产品进行探索应用,如腾讯视频、QQ浏览器、QQ音乐等30多款国民级产品。以腾讯视频的应用为例,视频库中的图片、音频、标题文本等内容使用腾讯云向量数据库,月均完成的检索和计算量高达200亿次,有效满足了版权保护、原创识别、相似性检索等场景需求。此外,使用腾讯云向量数据库后,QQ音乐人均听歌时长提升3.2%、腾讯视频有效曝光人均时长提升1.74%、QQ浏览器成本降低37.9%。