重庆市渝中区圣灵科技信息有限公司企业动态-重庆圣灵科技，企业新闻动态，互联网知识普及。

2024年08月16日 09:08浏览次数：6360次编辑：圣灵科技-小圣

近期，康奈尔大学等机构的研究人员对包括GPT-4o、Claude和Gemini在内的多个生成式AI模型进行了幻觉基准测试。研究发现，即使是最先进的模型也只有约35%的时间能生成无幻觉文本，表明AI可靠性仍有待提高。

研究者通过法律、健康、历史等主题的权威来源进行事实核查，设计了一套包含维基百科未涵盖内容的问题集。结果显示，OpenAI的模型整体表现最佳，但与旧版GPT-3.5相比进步有限。有趣的是，模型大小并不决定幻觉频率，较小模型如Claude3Haiku与较大模型表现相当。

研究合著者赵文婷指出，即使是能在线搜索的模型也难以解决"非Wiki"问题，反映了维基百科对模型影响深远。她预计幻觉问题将"持续很长时间"，部分原因在于训练数据本身可能包含错误信息。

一个暂时解决方案是增加模型的拒答频率。Claude3Haiku通过仅回答72%的问题，成为最"诚实"的模型。然而，这种策略可能影响用户体验。

赵建议，彻底消除幻觉可能不现实，但可通过人为事实核查、提供引用等方式减轻问题。她呼吁制定相关政策，确保人类专家参与验证AI生成信息的过程。

来源AIbase基地

关注圣灵科技公众号，免费获得更多企业互联网发展方案！

圣灵科技公众号二维码.jpg