新加坡国立大学开源多模态语言模型 NExT-GPT,助力多媒体AI应用发展

2023年11月30日 09:11浏览次数:8423次编辑:圣灵科技-小圣

新加坡国立大学(NUS)NExT 研究中心发布了开源多模态大语言模型 NExT-GPT,为处理文本、图像、视频和音频等多样化输入提供了强大支持,推动了多媒体人工智能应用的进一步发展。


NExT-GPT 提供了一个基于聊天的界面,允许用户输入文本、图像、视频或音频文件。该模型能够理解并针对这些输入做出回应,回答问题或生成相应内容。这一多模态人工智能系统融合了预训练的编码器和解码器,包括 Vicuna 和 Stable Diffusion,并通过 NExT 团队研发的 Modality-switching Instruction Tuning(MosIT)技术进行中间层的训练。


NExT-GPT 的架构分为三个层次:具有线性投影的编码阶段,负责生成标记的 Vicuna LLM 核心,以及具有模态特定的转换层和解码器的解码阶段。值得注意的是,在训练过程中,模型的大部分参数,包括编码器、解码器和 Vicuna 模型,都保持冻结状态,只有约1% 的参数会被更新。这一方法有助于降低训练成本同时保持性能水平。


该模型通过使用示例对话数据集进行训练,该数据集包含人类用户与聊天机器人之间涉及多模态输入和输出的情景,总共包括约5000个对话。NExT-GPT 在多模态生成基准测试中取得了竞争性的结果,并在不同场景下通过人类评审获得了高分,其中图像生成场景的得分高于视频和音频。


NExT-GPT 独特之处在于其能够在用户请求特定类型内容(如图像、视频或声音)时生成模态信令标记。这些标记在语言模型的词汇表中是预定义的,并在训练期间被包含其中。


NExT-GPT 的开源发布为研究者和开发者提供了一个强大的多模态语言模型,可以处理各种输入和输出,为不同媒体类型的复杂人工智能应用铺平了道路。其开源可用性对于多模态人工智能是一项重要的贡献,使得开发者能够创建能够无缝集成文本、图像、视频和音频的应用。该模型在内容生成、多媒体分析以及能够理解并响应用户首选格式的虚拟助手等各个领域都具有潜在的应用前景。


来源:站长之家


关注圣灵科技公众号,免费获得更多企业互联网发展方案!

圣灵科技公众号二维码.jpg

友情链接: 百度腾讯抖音小红书今日头条企业盟重庆互联网微星球建筑劳务网云人脉圈全民创收网圣灵建站系统圣灵溯源系统圣灵客服系统圣灵人事系统圣灵短视频圣灵传媒圣灵商学院重庆网海南网贵州网云南网广西网甘肃网宁夏网山西网陕西网山东网黑龙江网重庆百科web专家U站网

Copyright @ 2004-2023 cqslkj.cn All Right Reserved @重庆市渝中区圣灵科技信息有限公司 版权所有

渝ICP备16004600号-5 渝公网安备 50010802001399号 电子营业执照

联系方式
023-62897001

77981978
023-62897001
81623110
62891977
微信公众号