|

南极财经网
2000活跃值=1元

首页 > 财经数据 > 财经数据 > 比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

发布时间：2024-03-30 21:53:56

新智元导读】大模型的幻觉问题怎么解？谷歌DeepMind：用AI来做同行评审！事实核验正确率超过人类，而且便宜20倍。

AI的同行评审来了！

一直以来，大语言模型胡说八道（幻觉）的问题最让人头疼，而近日，来自谷歌DeepMind的一项研究引发网友热议：

大模型的幻觉问题，好像被终结了？

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

论文地址：https://arxiv.org/pdf/2403.18802.pdf

项目地址：https://github.com/google-deepmind/long-form-factuality

在这篇工作中，研究人员介绍了一种名为 "搜索增强事实性评估器"（Search-Augmented Factuality Evaluator，SAFE）的方法。

对于LLM的长篇回答，SAFE使用其他的LLM，将答案文本分解为单个叙述，然后使用诸如RAG等方法，来确定每个叙述的准确性。

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

——简单来说就是：AI答题，AI判卷，AI告诉AI你这里说的不对。

真正的「同行」评审。

另外，研究还发现，相比于人工标注和判断事实准确性，使用AI不但便宜20倍，而且还更靠谱！

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

目前这个项目已在GitHub上开源。

长文本事实性检验

大语言模型经常胡说八道，尤其是有关开放式的提问、以及生成较长的回答时。

比如小编随手测试一下当前最流行的几个大模型。

ChatGPT：虽然我的知识储备只到2021年9月，但我敢于毫不犹豫地回答任何问题。

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

Claude 3：我可以谦卑且胡说八道。

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

为了对大模型的长篇回答进行事实性评估和基准测试，研究人员首先使用GPT-4生成LongFact，这是一个包含数千个问题的提示集，涵盖38个主题。

LongFact包含两个任务：LongFact-Concepts和LongFact-Objects，前者针对概念、后者针对实体。每个包括30个提示，每个任务各有1140个提示。

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

然后，使用搜索增强事实性评估器（SAFE），利用LLM将长篇回复分解为一组单独的事实，并使用多步骤推理过程来评估每个事实的准确性，包括使用网络搜索来检验。

此外，作者建议将F1分数进行扩展，提出了一种兼顾精度和召回率的聚合指标。

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

【返回列表】

特别声明：以上内容(如有图片或视频亦包括在内)为“南极财经网用户上传并发布"，本平台仅提供信息存储服务。

下一篇:比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

上一篇:与会嘉宾高度关注：人工智能如何实现“智能向善”？

财经数据更多>>

智能体手机，抢跑 2026 的「方法论」 “恐怖数据”驾到黄金、美元指数、日元、欧元、英镑、澳元和人民币技术前景分析东鹏特饮A+H股双上市、TikTokShop强化风控、X投票改进新款小米SU7续航曝光：三种电池版本，CLTC最高902km 2025年陕西省级人才计划拟入选名单公示 Seedance2.0引爆应用端，还有哪些方向值得重视？周二收盘点评渭滨50万元电子消费券正式开抢！满500减100、满200减50...... W4周排名出炉，苹果、华为位置互换，小米、荣耀位置也互换涨价潮下的“生存游戏”：谁能率先穿越周期？ 4年前机型将喜提ColorOS 16正式版：还能再战曦望联席CEO王勇：启望S3研发完成，年中流片年底回片量产商汤开源多模态自主推理模型SenseNova-MARS 字节、阿里、腾讯 AI 大战全记录：一场影响命运的战争微信内公众号图标变了：从“一页”变成了“两页” 中国互联网大厂的 AI 时代船票争夺战已经开始了字节扣子 2.0 发布，我们深挖了它这两年的生长真相短剧红利狂欢下：屏幕里手握数亿元的“霸总”，屏幕外追要万元欠薪？泰山啤酒重整：鲜啤王牌，何以渡劫？ 2025年新建商品房销售额83937亿元厂商称被冒名代工名创优品围巾？名创优品暂无回应五菱大SUV卖6.28万，配1.5T+四轮独悬，轴距超2米8，又要火了！解锁任意步数文生图，港大&Adobe全新Self-E框架学会自我评估日产大5座SUV，NX8实车现身，车长4870mm，两种动力，上半年上市买车等等！比亚迪26年有超13台新车值得等：汉唐9系叫啥合适？比黄金还猛！白银价格飙升150%，三个被忽视的原因非常重要长城证券汪毅：2026年看好AI应用领域科技有AI，连接全球：海信家电参展CES 2026，定义智慧生活新图景拼多多内测“百亿超市”，低价再拓新场景真我 Neo8 参数曝光，骁龙 8 Gen5 、8000mAh电池 2026年第一款真全面屏来了！红魔11 Air官宣

Copyright 2007-2025 南极财经网版权所有京ICP备2023037816号-12