首页 > 财经数据 > 财经数据 > 谷歌Deepmind、斯坦福大学研究人员推出AI事实核查工具

谷歌Deepmind、斯坦福大学研究人员推出AI事实核查工具

发布时间:2024-03-31 20:20:01

 3 月 31 日消息,无论当下 AI 聊天机器人有多么强大,都会或多或少存在一大饱受诟病的行为 —— 以看上去令人信服的方式,向用户提供与事实不符的回答。简单来说,AI 有时会在回答中“满口跑火车”,甚至“造谣”。

图源 Pixabay

防止 AI 大模型出现这种行为并非易事,且是一项技术性的挑战。不过据外媒 Marktechpost 报道,谷歌 DeepMind 和斯坦福大学似乎找到了某种变通办法。

研究人员推出了一种基于大语言模型的工具 —— 搜索增强事实评估器(IT之家注:原名为 Search-Augmented Factuality Evaluator,简称 SAFE),可对聊天机器人生成的长回复进行事实核查。其研究结果与实验代码、数据集现已公布,点此查看

该系统可通过四个步骤对聊天机器人生成的回复进行分析、处理和评估,以验证准确性和真实性:将答案分割成单个待核查内容、对上述内容进行修正、再与谷歌搜索结果进行比较。随后,该系统还会检查各个事实与原始问题的相关性。

为评估其性能,研究人员创建了包含约 16000 个事实的数据集 LongFact,并在来自 Claude、Gemini、GPT、PaLM-2 的 13 个大语言模型上测试了该系统。结果显示,在对 100 个有争议的事实进行的重点分析中,SAFE 的判定在进一步审查下正确率达到 76% 。与此同时,该框架还具备经济性优势:成本比人工注释便宜 20 多倍

财经数据更多>>

智能体手机,抢跑 2026 的「方法论」 “恐怖数据”驾到 黄金、美元指数、日元、欧元、英镑、澳元和人民币技术前景分析 东鹏特饮A+H股双上市、TikTokShop强化风控、X投票改进 新款小米SU7续航曝光:三种电池版本,CLTC最高902km 2025年陕西省级人才计划拟入选名单公示 Seedance2.0引爆应用端,还有哪些方向值得重视?周二收盘点评 渭滨50万元电子消费券正式开抢!满500减100、满200减50...... W4周排名出炉,苹果、华为位置互换,小米、荣耀位置也互换 涨价潮下的“生存游戏”:谁能率先穿越周期? 4年前机型将喜提ColorOS 16正式版:还能再战 曦望联席CEO王勇:启望S3研发完成,年中流片年底回片量产 商汤开源多模态自主推理模型SenseNova-MARS 字节、阿里、腾讯 AI 大战全记录:一场影响命运的战争 微信内公众号图标变了:从“一页”变成了“两页” 中国互联网大厂的 AI 时代船票争夺战已经开始了 字节扣子 2.0 发布,我们深挖了它这两年的生长真相 短剧红利狂欢下:屏幕里手握数亿元的“霸总”,屏幕外追要万元欠薪? 泰山啤酒重整:鲜啤王牌,何以渡劫? 2025年新建商品房销售额83937亿元 厂商称被冒名代工名创优品围巾?名创优品暂无回应 五菱大SUV卖6.28万,配1.5T+四轮独悬,轴距超2米8,又要火了! 解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估 日产大5座SUV,NX8实车现身,车长4870mm,两种动力,上半年上市 买车等等!比亚迪26年有超13台新车值得等:汉唐9系叫啥合适? 比黄金还猛!白银价格飙升150%,三个被忽视的原因非常重要 长城证券汪毅:2026年看好AI应用领域 科技有AI,连接全球:海信家电参展CES 2026,定义智慧生活新图景 拼多多内测“百亿超市”,低价再拓新场景 真我 Neo8 参数曝光,骁龙 8 Gen5 、8000mAh电池 2026年第一款真全面屏来了!红魔11 Air官宣