腾讯音乐亮相乌镇「互联网之光」博览会,展示 AI 唱作技术与精品音乐内容矩阵
49
2025 / 11 / 13
9 月 9 日消息,第 51 届数据库顶会 VLDB 2025 在英国伦敦落幕,腾讯云大数据团队两项研究成果被大会成功接收。其中,在自然语言转 SQL(NL2SQL)领域,腾讯云与复旦大学合作提出的 SQL 修正框架「REDSQL」技术,可有效解决大语言模型在 NL2SQL 任务中易出错的问题,显著提升查询准确性和实用性,为「聊天式数据分析」的落地提供技术支撑。
(腾讯云大数据团队技术专家在 VLDB2025 上做主题分享)
自然语言转 SQL(NL2SQL)技术让用户用日常语言直接生成数据库查询语句,如「显示销售额最高的产品」。虽然降低了数据分析门槛,但大语言模型在实际应用中容易忽略深层业务规则、生成不符合规范的 SQL,或在复杂数据库和大数据量下出现上下文理解不足,影响查询准确性和效率。
针对这些问题,腾讯云大数据团队与复旦大学 DASLAB 实验室团队在论文《The Power of Constraints in Natural Language to SQL Translation》中提出 REDSQL。该技术通过约束验证机制智能修正 SQL 查询,并生成精炼的数据摘要文档,帮助 AI 快速理解数据库结构、字段类型和数据关系,从而降低生成错误 SQL 的概率。
REDSQL 的工作流程包括两个阶段:离线文档化和在线处理。离线阶段为数据库创建精炼的语义描述和约束信息,包括字段类型、主外键关系、数据取值范围及业务规则摘要,使 AI 在生成 SQL 时可直接利用这些结构化信息。
在线阶段针对每条用户查询,系统先生成初始 SQL 并捕获潜在错误,再通过约束验证机制检查数据类型匹配、连接条件和聚合逻辑,自动修正不符合规范的查询,同时扩展相关上下文信息供 AI 优化 SQL。
在权威基准测试 BIRD 上,REDSQL 使主流 NL2SQL 方法的准确率平均提升 18% 以上,有的原本精度较高的方法结合 REDSQL 后准确率提升至 66.2%,刷新历史记录。实验显示,REDSQL 可即插即用集成到现有 AI 系统,无需重新训练模型,适用于企业数据门户或 BI 工具,并保证查询安全和合规性。
除此之外,腾讯大数据团队还面向参数调优领域,提出「SCompression」技术,通过时间切片与聚类采样压缩数据库负载,使调优速度提升 40 倍以上,性能偏差低于 5%。该成果可与现有调优工具兼容,帮助企业大幅降低数据库调优的时间与资源成本,加速「自动参数调优」走向商用。
目前,这些研究成果已应用在腾讯云大数据产品线中,助力各行各业客户构建高性能的数据处理与分析能力。
此外,腾讯还有 7 篇技术论文被本届 VLDB 大会接收,覆盖分布式事务调度、混合并发控制、时序图计算等多个前沿领域,多项研究已应用于微信、腾讯广告等亿级业务场景,为全球企业提供高性能数据底座支撑。
来源:互联网