|

南极财经网
2000活跃值=1元

首页 > 财经数据 > 财经数据 > 谷歌Deepmind、斯坦福大学研究人员推出AI事实核查工具

谷歌Deepmind、斯坦福大学研究人员推出AI事实核查工具

发布时间：2024-03-31 20:20:01

3 月 31 日消息，无论当下 AI 聊天机器人有多么强大，都会或多或少存在一大饱受诟病的行为 —— 以看上去令人信服的方式，向用户提供与事实不符的回答。简单来说，AI 有时会在回答中“满口跑火车”，甚至“造谣”。

谷歌Deepmind、斯坦福大学研究人员推出AI事实核查工具

图源 Pixabay

防止 AI 大模型出现这种行为并非易事，且是一项技术性的挑战。不过据外媒 Marktechpost 报道，谷歌 DeepMind 和斯坦福大学似乎找到了某种变通办法。

研究人员推出了一种基于大语言模型的工具 —— 搜索增强事实评估器（IT之家注：原名为 Search-Augmented Factuality Evaluator，简称 SAFE），可对聊天机器人生成的长回复进行事实核查。其研究结果与实验代码、数据集现已公布，点此查看

该系统可通过四个步骤对聊天机器人生成的回复进行分析、处理和评估，以验证准确性和真实性：将答案分割成单个待核查内容、对上述内容进行修正、再与谷歌搜索结果进行比较。随后，该系统还会检查各个事实与原始问题的相关性。

为评估其性能，研究人员创建了包含约 16000 个事实的数据集 LongFact，并在来自 Claude、Gemini、GPT、PaLM-2 的 13 个大语言模型上测试了该系统。结果显示，在对 100 个有争议的事实进行的重点分析中，SAFE 的判定在进一步审查下正确率达到 76% 。与此同时，该框架还具备经济性优势：成本比人工注释便宜 20 多倍。

谷歌Deepmind、斯坦福大学研究人员推出AI事实核查工具

【返回列表】

特别声明：以上内容(如有图片或视频亦包括在内)为“南极财经网用户上传并发布"，本平台仅提供信息存储服务。

下一篇:微软Win11测试开始菜单“全部应用”新网格布局

上一篇:是人类未来还是“终极挑战”，博鳌热议 AI 机遇与风险｜钛媒体AGI

财经数据更多>>

智能体手机，抢跑 2026 的「方法论」 “恐怖数据”驾到黄金、美元指数、日元、欧元、英镑、澳元和人民币技术前景分析东鹏特饮A+H股双上市、TikTokShop强化风控、X投票改进新款小米SU7续航曝光：三种电池版本，CLTC最高902km 2025年陕西省级人才计划拟入选名单公示 Seedance2.0引爆应用端，还有哪些方向值得重视？周二收盘点评渭滨50万元电子消费券正式开抢！满500减100、满200减50...... W4周排名出炉，苹果、华为位置互换，小米、荣耀位置也互换涨价潮下的“生存游戏”：谁能率先穿越周期？ 4年前机型将喜提ColorOS 16正式版：还能再战曦望联席CEO王勇：启望S3研发完成，年中流片年底回片量产商汤开源多模态自主推理模型SenseNova-MARS 字节、阿里、腾讯 AI 大战全记录：一场影响命运的战争微信内公众号图标变了：从“一页”变成了“两页” 中国互联网大厂的 AI 时代船票争夺战已经开始了字节扣子 2.0 发布，我们深挖了它这两年的生长真相短剧红利狂欢下：屏幕里手握数亿元的“霸总”，屏幕外追要万元欠薪？泰山啤酒重整：鲜啤王牌，何以渡劫？ 2025年新建商品房销售额83937亿元厂商称被冒名代工名创优品围巾？名创优品暂无回应五菱大SUV卖6.28万，配1.5T+四轮独悬，轴距超2米8，又要火了！解锁任意步数文生图，港大&Adobe全新Self-E框架学会自我评估日产大5座SUV，NX8实车现身，车长4870mm，两种动力，上半年上市买车等等！比亚迪26年有超13台新车值得等：汉唐9系叫啥合适？比黄金还猛！白银价格飙升150%，三个被忽视的原因非常重要长城证券汪毅：2026年看好AI应用领域科技有AI，连接全球：海信家电参展CES 2026，定义智慧生活新图景拼多多内测“百亿超市”，低价再拓新场景真我 Neo8 参数曝光，骁龙 8 Gen5 、8000mAh电池 2026年第一款真全面屏来了！红魔11 Air官宣

Copyright 2007-2025 南极财经网版权所有京ICP备2023037816号-12