研究表明即使是最好的人工智能模型也会产生许多幻觉

2024年08月16日 09:08浏览次数:6360次编辑:圣灵科技-小圣

近期,康奈尔大学等机构的研究人员对包括GPT-4o、Claude和Gemini在内的多个生成式AI模型进行了幻觉基准测试。研究发现,即使是最先进的模型也只有约35%的时间能生成无幻觉文本,表明AI可靠性仍有待提高。


研究者通过法律、健康、历史等主题的权威来源进行事实核查,设计了一套包含维基百科未涵盖内容的问题集。结果显示,OpenAI的模型整体表现最佳,但与旧版GPT-3.5相比进步有限。有趣的是,模型大小并不决定幻觉频率,较小模型如Claude3Haiku与较大模型表现相当。


研究合著者赵文婷指出,即使是能在线搜索的模型也难以解决"非Wiki"问题,反映了维基百科对模型影响深远。她预计幻觉问题将"持续很长时间",部分原因在于训练数据本身可能包含错误信息。


一个暂时解决方案是增加模型的拒答频率。Claude3Haiku通过仅回答72%的问题,成为最"诚实"的模型。然而,这种策略可能影响用户体验。


赵建议,彻底消除幻觉可能不现实,但可通过人为事实核查、提供引用等方式减轻问题。她呼吁制定相关政策,确保人类专家参与验证AI生成信息的过程。


来源AIbase基地


关注圣灵科技公众号,免费获得更多企业互联网发展方案!

圣灵科技公众号二维码.jpg

友情链接: 百度腾讯抖音小红书今日头条企业盟重庆互联网微星球建筑劳务网云人脉圈全民创收网全民财多多圣灵建站系统圣灵溯源系统圣灵客服系统圣灵人事系统创投100圣灵短视频圣灵传媒圣灵商学院重庆网海南网贵州网云南网广西网甘肃网宁夏网山西网陕西网山东网黑龙江网重庆百科web专家U站网青海网新疆网西藏网安徽网福建网湖北网湖南网四川网河北网河南网吉林网辽宁网AI应用工厂

Copyright @ 2004-2023 cqslkj.cn All Right Reserved @重庆市渝中区圣灵科技信息有限公司 版权所有

渝ICP备16004600号-5 渝公网安备 50010802001399号 电子营业执照

联系方式
023-62897001

77981978
023-62897001
81623110
62891977
微信公众号