微软新 AI 模型能理解图像内容解决视觉难题

微软研究人员在预印本网站 arXiv 发表论文,介绍了它的多模大语言模型 Kosmos-1,能理解图像内容,解决视觉难题,执行视觉文本识别,通过视觉 IQ 测试,理解自然语言指令。研究人员认为,集成文本、音频、图像和视频等不同输入模式的多模 AI 模型是构建通用 AI(AGI)的关键一步。研究人员称,作为智能的基本组成部分,多模感知是实现 AGI 所必不可少的。Kosmos-1 能分析图像并回答关于相关问题,能从图像中读取文本,为图像写标题,以 22-26% 的准确率完成视觉 IQ 测试。微软使用来自 Web 的数据训练 Kosmos-1,包括 The Pile(800GB 容量的英文文本资源)和 Common Crawl。训练后通过一系列测试去评估了 Kosmos-1 的能力。微软称,在众多测试中,Kosmos-1 的表现超过了目前🔊先进的模型。

微信关注

服务器吧 原创文章,发布者:服务器租用,如若转载请注明出处:https://www.fuwuqizuyong.cc/zhujiba/9640.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023年3月3日 下午7:39
下一篇 2023年3月3日 下午11:44

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

联系我们

0311-8343-7686

在线咨询:点击这里给我发消息

邮件:564999054@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

微信客服
微信客服
分享本页
返回顶部
CTRL+D 快速收藏本站   便宜云服务器:传送门

Warning: error_log(/www/wwwroot/www.fuwuqizuyong.cc/wp-content/plugins/spider-analyser/#log/log-2811.txt): failed to open stream: No such file or directory in /www/wwwroot/www.fuwuqizuyong.cc/wp-content/plugins/spider-analyser/spider.class.php on line 2900