首页 > 财经数据 > 财经数据 > 全球权威评测榜单BIRD:蚂蚁数科超越谷歌等公司位居第一

全球权威评测榜单BIRD:蚂蚁数科超越谷歌等公司位居第一

发布时间:2025-09-26 20:41:35

9月26日,据全球权威评测基准BIRD-Bech官网,蚂蚁数科的数据分析智能体Agentar-SQL超越AT&T(美国电话电报公司)、谷歌云、腾讯云、阿里云等诸多国内外厂商,位居全球第一。这也是中国公司在该榜单上取得的最高成绩。

BIRD-Bench是公认的全球最具权威性的自然语言转SQL评测基准,要求AI大模型将自然语言查询转换为结构化查询语言(SQL),并且在真实复杂的大规模生产级数据库中稳定执行。BIRD--Bench数据集覆盖金融、电力、医疗等37个行业场景,总量33GB,包含超过1万条高复杂度查询任务,是全球顶级AI团队展示技术实力的权威平台。

值得一提的是,蚂蚁数科Agentar-SQL在BIRD榜单的执行准确率排行榜(81.67分)以及执行效率榜上(77分)上均取得第一的成绩。这意味着蚂蚁数科在智能问数领域的技术创新实现全球领先。

据介绍,Agentar-SQL智能体基于蚂蚁数科的SQL大模型Agentar-Scale-SQL构建,旨在让用户可以通过自然语言轻松完成复杂的数据查询任务。它通过GSPO(组序列策略优化)强化学习训练方法,能够增强SQL内在推理,让大模型在推理阶段,深度思考SQL框架,避免潜在的逻辑错误,提升SQL逻辑准确性;此外,Agentar-SQL具备多轮反思修正的能力,让模型对生成的SQL进行多轮次的审视和修正,提升SQL语言的精准性;Agentar-SQL还通过独创的两阶段生成法,让大模型生成多个SQL候选,再对SQL进行两两PK的“锦标赛”,筛选出最优的SQL。

蚂蚁数科持续深耕AI大模型技术与应用,此前其自研的金融推理大模型Agentar-Fin-R1,在多项主流金融基准测试实现领先。专为新能源行业定制的能源电力垂类时序大模型在行业评测集上的发电量预测准确率超越谷歌(TimesFM-V2.0)、亚马逊(Chronos-Large)等行业主流的通用时序模型。

财经数据更多>>

季军奖牌来了,四川男篮胜辽宁夺铜牌,胡金秋一战封神 开车请注意!绿灯不走也违法 “罚款200元、记6分” 嵩县:银杏树下的幸福期许 18岁张展硕夺200米自由泳冠军-潘展乐摘铜 孙杨因抢跳犯规没成绩 微信视频通话藏3个“神仙功能”!90%的人都没用过,实用到哭 离婚证“囍”字惊现!网友:这是民政局在暗示“分完再找下家”? 新管理层到位,金标大众发射第三弹:ID.EVO定名与众08,小鹏深度加持 探索手机 AI 隐私“最优解”:苹果之后,谷歌也入局私有云计算 消息称第二代iPhone Air将重新设计 苹果工程师希望在2027年春季发布 影石和大疆的战争,撕到数据层面了 烧光数十亿,降价超90%,酒店机器人流血狂奔 iPhone Air 或许后继无人,但苹果会永远离经叛道 限时价9.29万元起 第五代瑞虎8上市 车长5米,轴距3米多,环抱式座舱,L2++级辅助驾驶,就等新车了! 爱立信成功完成上行L4S技术测试,助力提升5G实时交互业务体验 网页浏览多1小时!测试表明纯eSIM版iPhone17 Pro续航优势明显 解锁软件许可优化秘籍:5大方法助企业降本30%,同行亲测有效! 首破50%,新能源车月销占比反超燃油车 9投全中+实战扣篮!张子宇全运会完美表现征服赛场 全运会大乌龙!乒乓名将3-1躺地庆祝,裁判突然喊:比赛还没结束 泳池新王诞生!18岁战胜孙杨,他的谦逊让全网点赞 从七元涨到40元,一天一个价 广州地标建筑“铜钱大厦”挂拍15天无人报名,管理人回应:若无人报名,将进行第二次挂拍 刷新亚洲纪录!13岁“小孩姐”于子迪摘金! 广州楼市“掀桌子”!明年起,你买的新房全是“拼装预制”! 巅峰对决!“地表最难乒乓球赛”开始了 荣耀 500 系列手机全系搭载骁龙 8 系芯片、全面支持幻影引擎 3.0 京东线下自营大店双11同步新开15家店 AI浪潮下,我们的工作真会被取代吗? “六小龙”首次齐聚乌镇 他们都谈了些什么?记者探访